Новый метод компьютерного зрения связывает фотографии с планами помещений с точностью до пикселя

Прочитано: 63 раз(а)


Для людей сопоставление того, что они видят на земле, с картой — это само собой разумеющееся. Для компьютеров это всегда было серьезной проблемой. Исследовательская группа из Корнельского университета представила новый метод, который помогает машинам устанавливать эти связи — достижение, которое может улучшить робототехнику, навигационные системы и 3D-моделирование.

Работа, представленная на конференции по нейронным информационным системам 2025 года и опубликованная на сервере препринтов arXiv , устраняет серьезный недостаток современных инструментов компьютерного зрения. Существующие системы хорошо справляются со сравнением похожих изображений, но дают сбой, когда ракурсы существенно различаются, например, при сопоставлении фотографии с уровня улицы с простой картой или архитектурным чертежом.

Новый подход обучает машины находить совпадения на уровне пикселей между фотографией и планом помещения, даже если они выглядят совершенно по-разному. Куан Вэй Хуан, аспирант в области компьютерных наук, является первым автором; соавторами являются Ноа Снавели, профессор Корнеллского технологического института; Бхарат Харихаран, доцент Колледжа вычислительной техники и информационных наук им. Энн С. Боуэрс Корнеллского университета; и студент бакалавриата Брэндон Ли, студент факультета компьютерных наук.

Команда дала новой модели прозвище C3Po — сокращение от ее полного названия, «Cross-View Cross-Modality Correspondence by Pointmap Prediction» (Межвидовое межмодальное соответствие путем прогнозирования точечных карт), и шутливый намек на персонажа из «Звездных войн». Для ее поддержки команда создала C3, огромный набор данных, состоящий из парных фотографий и планов помещений. Этот ресурс обучает компьютеры понимать, как изображения реального мира соотносятся с упрощенными картами — критически важная возможность для таких технологий, как навигация внутри помещений, перемещение роботов и цифровая реконструкция пространств.

«В последнее время в области трехмерного компьютерного зрения произошли огромные успехи, напоминающие прорывы, которых добились большие языковые модели несколько лет назад», — сказал Снавели, также работающий в Корнеллском колледже Боуэрс. «Теперь у нас есть большие модели машинного обучения , которые могут брать двухмерные изображения — например, несколько изображений здания — и создавать трехмерную реконструкцию этого места».

Он объяснил, что существующие крупномасштабные модели обработки изображений ограничены, поскольку они обучались только на фотографиях. При обработке изображений, выходящих за рамки этой области, например, планов помещений, они показывают плохие результаты, просто потому что никогда не сталкивались с подобными входными данными.

«Одной из главных причин этой проблемы является ограниченность данных, — сказал он. — Поэтому мы хотели создать набор данных, который связывает планы этажей с обычными фотографиями, и именно так появился набор данных C3».

Чтобы восполнить этот пробел, команда создала C3 — набор данных, включающий 90 000 пар «план этажа — фотография» для 597 сцен, содержащих 153 миллиона соответствий на уровне пикселей и 85 000 положений камеры. Они собрали набор данных, реконструировав каждую сцену в 3D из больших коллекций фотографий в интернете, а затем вручную сопоставив эти реконструкции с общедоступными планами этажей. Такое сопоставление обеспечивает точное отображение пикселей изображения и координат плана этажа, чего не удавалось ни одному предыдущему набору данных в таком масштабе.

Когда команда тестировала существующие методы, большинство из них испытывали трудности с этой задачей, часто допуская ошибки, превышающие 10% изображения. Чтобы исправить это, исследователи усовершенствовали свой подход, позволив системе сопоставлять каждый пиксель на фотографии с точной точкой на плане этажа. Их улучшенная модель, C3Po, сократила количество ошибок на 34% по сравнению с лучшим предыдущим методом и обеспечила более надежные результаты, когда система была уверена в своих прогнозах.

«В долгосрочной перспективе мы надеемся, что это вдохновит на создание больших 3D-моделей компьютерного зрения, способных принимать самые разные входные данные, относящиеся к сцене», — сказал Снавели. « Область исследований в области 3D-компьютерного зрения обычно отстает на несколько лет от других областей с точки зрения использования последних тенденций в области ИИ, и я лично считаю, что это многомодальное направление, в котором движется ИИ, вскоре станет новым рубежом и в 3D-компьютерном зрении».

Новый метод компьютерного зрения связывает фотографии с планами помещений с точностью до пикселя



Новости партнеров