Согласно исследованию междисциплинарной группы из Пенсильванский штат.
В первые два года жизни дети видят несколько узкий набор предметов и лиц, но с разных точек зрения и в разных условиях освещения . Вдохновленные этим пониманием развития, исследователи представили новый подход к машинному обучению, который использует информацию о пространственном положении для более эффективного обучения зрительных систем ИИ.
Они обнаружили, что модели ИИ, обученные по новому методу, превосходят базовые модели на 14,99%. О своих выводах они сообщили в майском номере журнала Patterns.
«Современные подходы к искусственному интеллекту используют для обучения огромные наборы случайно перетасованных фотографий из Интернета. Напротив, наша стратегия основывается на психологии развития , которая изучает, как дети воспринимают мир», — сказал Личжэнь Чжу, ведущий автор и докторант исследования в области искусственного интеллекта. Колледж информационных наук и технологий Пенсильванского университета.
Исследователи разработали новый алгоритм контрастного обучения, который представляет собой тип метода самоконтролируемого обучения, в котором система искусственного интеллекта учится обнаруживать визуальные шаблоны, чтобы определить, когда два изображения являются производными одного и того же базового изображения, в результате чего образуется положительная пара. Однако эти алгоритмы часто рассматривают изображения одного и того же объекта, снятые с разных точек зрения, как отдельные объекты, а не как положительные пары.
По мнению исследователей, учет данных об окружающей среде, включая местоположение, позволяет системе искусственного интеллекта преодолевать эти проблемы и обнаруживать положительные пары независимо от изменений положения или вращения камеры, угла освещения или условий, а также фокусного расстояния или масштабирования.
«Мы предполагаем, что визуальное обучение младенцев зависит от восприятия местоположения. Чтобы создать эгоцентрический набор данных с пространственно-временной информацией, мы создали виртуальные среды на платформе ThreeDWorld, которая представляет собой высокоточную интерактивную среду трехмерного физического моделирования. Это позволило нам манипулировать и измерять расположение камер наблюдения, как если бы ребенок шел по дому», — добавил Чжу.
Ученые создали три среды моделирования — House14K, House100K и Apartment14K, где «14K» и «100K» относятся к приблизительному количеству образцов изображений, сделанных в каждой среде. Затем они трижды запускали базовые модели контрастного обучения и модели с новым алгоритмом, чтобы увидеть, насколько хорошо каждая классифицирует изображения. Команда обнаружила, что модели, обученные с помощью их алгоритма, превосходят базовые модели в ряде задач.
Например, при выполнении задачи по распознаванию комнаты в виртуальной квартире расширенная модель выполнила в среднем 99,35%, что на 14,99% лучше базовой модели.
«Моделям всегда трудно учиться в новой среде с небольшим объемом данных. Наша работа представляет собой одну из первых попыток более энергоэффективного и гибкого обучения ИИ с использованием визуального контента», — сказал Джеймс Ванг, заслуженный профессор информатики. и технологии и советник Чжу.
По мнению ученых, это исследование имеет значение для будущего развития передовых систем искусственного интеллекта, предназначенных для навигации и обучения в новой среде.
«Этот подход будет особенно полезен в ситуациях, когда команде автономных роботов с ограниченными ресурсами необходимо научиться ориентироваться в совершенно незнакомой среде», — сказал Ван. «Чтобы подготовить почву для будущих приложений, мы планируем усовершенствовать нашу модель, чтобы лучше использовать пространственную информацию и включать более разнообразные среды».
Сотрудники факультета психологии и факультета компьютерных наук и инженерии Пенсильванского университета также внесли свой вклад в это исследование.