Человеческое зрение — вызов для ИИ

Достижение разнообразия в человеческом зрении — одна из главных задач в исследованиях ИИ. В подавляющем большинстве случаев мы лучше машин понимаем окружающий мир. Но машины догоняют — медленно, но верно.

«В течение одного дня мы, люди, можем перейти от вождения автомобиля к фридайвингу, продолжать читать газету и перемещаться по густому лесу — и все это без особых усилий. Для робота делать то же самое в настоящее время было бы невозможно, — говорит Михаэль Фельсберг, профессор Университета Линчёпинга и один из ведущих шведских исследователей в области компьютерного зрения и искусственного интеллекта (ИИ).

Все это и многое другое мы, люди, можем делать во многом благодаря зрению. По оценкам, около 80% наших впечатлений достигают нас посредством зрения. Это самое важное чувство для восприятия того, что происходит вокруг нас. Исследования Майкла Фелсберга сосредоточены в основном на так называемой искусственной зрительной системе, цель которой состоит в том, чтобы заставить компьютеры видеть так же хорошо, как люди.

«Биологические системы просто работают. Люди обладают замечательными способностями к общему восприятию и анализу, навыкам, которым мы хотим подражать в компьютерах. Сегодня мы можем создавать технические системы, которые хорошо справляются с конкретной задачей, например, беспилотные автомобили . В будущем мы хотим иметь возможность сотрудничать с роботами, они должны видеть и понимать именно то, что видим мы», — говорит Майкл Фельсберг.

Имитация человеческого зрения может показаться легкой на первый взгляд. Когда начались исследования ИИ, казалось, что компьютерное зрение будет решено с помощью простой камеры — может быть, проект на летние каникулы. Теперь, почти 60 лет спустя, общее компьютерное зрение превратилось в одну из самых важных проблем в исследованиях ИИ.

Код — это мозг

Михаэль Фельсберг и его коллеги тестируют многие решения, которые они разрабатывают, в лаборатории машинного зрения на кампусе Валла в Линчёпинге. Например, между огромными стеклянными стенами проходят испытания автономные дроны и небольшие беспилотные автомобили, оснащенные передовыми датчиками и камерами. Но настоящий мозг в компьютерном зрении находится за линзой.

«Камера — это просто датчик освещенности, ничего другого она делать не может. Фактическая работа выполняется кодом и программным обеспечением камеры. То же самое и с людьми: глаз регистрирует свет, а мозг выполняет работу. «, — говорит Майкл Фельсберг.

Было много попыток подражать человеческому мозгу — с разными результатами. Сегодня обычно используется метод машинного обучения, называемый глубоким обучением . Проще говоря, это означает, что компьютер изучает свои модели, организованные в нейронные сети, из больших объемов данных. Алгоритмы питаются огромными объемами данных, которые анализируются на нескольких уровнях. Это может показаться сложным, и это так. Правда в том, что никто не может точно сказать, что происходит при каждой активации в глубокой сети.

Майкл Фельсберг проводит параллели с человеческим мозгом :

«На сканировании мозга можно увидеть, какие участки мозга активны при различных раздражителях. Но мы до сих пор не знаем, что на самом деле происходит и как в мозгу формируется мысль. Глубокое обучение работает примерно так же. что это работает, но не в деталях, как это работает», — говорит он.

Путь вперед

Но почему компьютеру так сложно увидеть то, что видим мы? Ответ кроется в нашей способности быстро адаптироваться к различным ситуациям и в петле обратной связи между нашим восприятием окружающего мира и нашей постоянно активной когнитивной способностью.

Глядя сквозь грязное оконное стекло, вы видите повседневный пример ситуации, когда компьютеры борются, а мы, люди, справляемся плавно. Мы сразу видим, что происходит за окном, несмотря на наше слегка затуманенное зрение. С другой стороны, компьютер сначала автоматически сфокусируется на грязи на стекле. Но как только он нашел правильный фокус — на сцене снаружи — он все равно не сможет полностью понять, что происходит, потому что часть обзора заблокирована грязью.

Тем не менее, есть области, в которых компьютеры уже видят лучше, чем люди, в частности, когда речь идет о точных расчетах и оценках расстояний, температур и закономерностей. В этих случаях компьютерное зрение может дополнять наше собственное видение, а не делать собственные выводы и действовать в соответствии с ними.

«Техническая система работает хорошо, пока все соответствует ожиданиям. Но столкнувшись с чем-то непредвиденным, у нее будут проблемы. Мы должны работать над тем, чтобы сделать системы более надежными», — говорит Майкл Фелсберг.

Но разработка программного обеспечения, способного превзойти по гибкости человеческое зрение , требует времени. И, по словам Майкла Фелсберга, исследование должно занять время, чтобы оно было надежным. Наука — это процесс, и каждая новая исследовательская статья добавляет еще один кусочек к огромной головоломке. Прорывы, которые дают исследованиям огромный скачок вперед, очень редки.

«Общая ситуационная осведомленность в компьютере могла бы существовать еще при нашей жизни. Но создание связи между познанием и общей ситуационной осведомленностью в компьютере, вероятно, произойдет в очень далеком будущем», — говорит Майкл Фелсберг.

Как только появится общее компьютерное зрение, он считает, что появится множество различных приложений, например, социальные роботы, более безопасные автономные транспортные средства и более эффективное производство. Но ИИ не является бесспорным. Многие области использования рискуют нарушить частную жизнь при обработке больших объемов персональных данных.

По этой причине Майкл Фелсберг и его исследовательская группа сосредоточены на том, как ИИ может лучше понять, как мы можем предотвратить дальнейшее изменение климата:

«Изменение климата — одна из величайших угроз для человечества. Используя передовое компьютерное зрение, мы сможем быстро анализировать большие участки земли и их значение для климата. несколько недель с помощью ИИ».