Благодаря методике, разработанной исследователями из Университета штата Северная Каролина, автономные транспортные средства однажды смогут гораздо лучше ориентироваться на дорогах. Эта методика позволяет программам искусственного интеллекта точнее отображать трехмерные пространства с использованием двухмерных изображений.
«Большинство автономных транспортных средств используют мощные программы ИИ, называемые преобразователями зрения, для получения 2D-изображений с нескольких камер и создания представления о 3D-пространстве вокруг транспортного средства», — говорит Тианфу Ву, доцент кафедры электротехники и вычислительной техники в Университете штата Северная Каролина и автор-корреспондент статьи о новой технологии. «Однако, хотя каждая из этих программ ИИ использует свой подход, все еще есть существенные возможности для совершенствования».
Хотя эти программы ИИ используют разные подходы, новая методика, разработанная Ву и его коллегами, потенциально способна существенно улучшить их все.
«Наша техника, называемая Multi-View Attentive Contextualization (MvACon), — это подключаемое дополнение, которое можно использовать в сочетании с этими существующими ИИ-трансформерами зрения, чтобы улучшить их способность отображать трехмерные пространства», — говорит Ву. «Трансформеры зрения не получают никаких дополнительных данных со своих камер, они просто могут лучше использовать данные».
Исследовательская группа протестировала работу MvACon с тремя ведущими преобразователями изображений, представленными в настоящее время на рынке. Все они используют набор из шести камер для сбора преобразуемых ими 2D-изображений.
MvACon значительно улучшил производительность всех трех преобразователей зрения.
«Производительность особенно возросла, когда дело касалось определения местоположения объектов, а также скорости и ориентации этих объектов», — говорит Ву.
Исследовательская группа представила доклад под названием «Многоракурсная внимательная контекстуализация для обнаружения многоракурсных 3D-объектов» на конференции IEEE/CVF по компьютерному зрению и распознаванию образов в этом году.