Почему люди преуспевают в распознавании объектов по фрагментам, а ИИ испытывает трудности

Исследование, проведенное в Федеральной политехнической школе Лозанны (EPFL), объясняет, почему люди преуспевают в распознавании объектов по фрагментам, в то время как ИИ испытывает трудности, подчеркивая важную роль контурной интеграции в человеческом зрении.

Каждый день мы без труда узнаём друзей в толпе или узнаём знакомые фигуры, даже если они частично скрыты. Наш мозг собирает фрагменты в целостные объекты, заполняя пробелы и осмысливая зачастую хаотичный мир.

Эта способность называется «контурной интеграцией», и даже самые умные системы искусственного интеллекта всё ещё испытывают трудности с её реализацией. Несмотря на выдающиеся достижения искусственного интеллекта в распознавании изображений , ИИ всё ещё с трудом обобщает неполную или искаженную визуальную информацию.

Когда объекты частично скрыты, стерты или разбиты на фрагменты, большинство моделей ИИ дают сбои, неправильно классифицируются или отказываются работать. Это может стать серьёзной проблемой в реальной жизни, учитывая нашу растущую зависимость от ИИ в таких реальных приложениях, как беспилотные автомобили , протезирование и робототехника.

Лаборатория NeuroAI Федеральной политехнической школы Лозанны (EPFL) под руководством Мартина Шримпфа приступила к систематическому сравнению того, как люди и искусственный интеллект справляются с визуальными головоломками. Бен Лённквист, аспирант EDNE и ведущий автор исследования, совместно с Лабораторией психофизики Михаэля Херцога разработал серию тестов на распознавание, в которых как люди, так и более 1000 искусственных нейронных сетей должны были идентифицировать объекты с отсутствующими или фрагментированными контурами. Результаты показывают, что в области контурной интеграции люди стабильно превосходят современные системы искусственного интеллекта, и объясняют, почему.

Исследование было представлено на Международной конференции по машинному обучению ( ICML 2025 ), проходившей в Ванкувере с 13 по 19 июля. Результаты доступны на сервере препринтов arXiv .

Команда провела лабораторный тест распознавания объектов с участием 50 добровольцев. Участники рассматривали изображения повседневных предметов, таких как чашки, шляпы, кастрюли и т. д., контуры которых систематически стирались или разбивались на сегменты. Иногда оставалось видимым лишь 35% контуров объекта. Параллельно команда дала ту же задачу более чем 1000 моделям искусственного интеллекта, включая некоторые из самых мощных доступных систем.

Эксперимент охватывал 20 различных условий, различающихся типом и объёмом визуальной информации. Команда сравнивала результаты в этих условиях, измеряя точность и анализируя реакцию людей и машин на всё более сложные визуальные головоломки.

Люди оказались удивительно надёжными, часто достигая 50% точности, даже когда большая часть контура объекта отсутствовала. Модели ИИ, напротив, в тех же условиях склонны скатываться к случайным угадываниям. Только модели, обученные на миллиардах изображений, приблизились к результатам, близким к человеческим, — и даже в этом случае их пришлось специально адаптировать к изображениям исследования.

Углубляясь в исследование, исследователи обнаружили, что люди проявляют естественное предпочтение к распознаванию объектов, фрагменты которых направлены в одну сторону. Команда назвала это «интеграционной ошибкой». Модели ИИ, обученные развивать аналогичную ошибку, лучше справлялись с искажениями изображений. Обучение систем ИИ, специально разработанных для интеграции контуров, повысило их точность и позволило им больше концентрироваться на форме объекта, а не на текстуре поверхности.

Эти результаты свидетельствуют о том, что контурная интеграция не является запрограммированной характеристикой, а приобретается с опытом. Для отраслей, использующих компьютерное зрение, таких как беспилотные автомобили или медицинская визуализация , создание ИИ, видящего мир подобно нам, может означать более безопасную и надёжную технологию.

Работа также показывает, что лучший способ сократить разрыв — не возиться с архитектурой ИИ, а предоставить машинам более «человеческую» визуальную диету, включая множественные изображения реального мира, на которых объекты часто частично скрыты.