Обучение искусственных нейронных сетей обработке изображений с точки зрения ребенка

Психологические исследования показали, что к 4–5 годам у маленьких детей формируются сложные визуальные модели окружающего мира. Эти внутренние визуальные модели позволяют им превосходить передовые методы компьютерного зрения при решении различных задач распознавания объектов.

Исследователи из Нью-Йоркского университета недавно приступили к изучению возможности обучения искусственных нейронных сетей на этих моделях без индуктивных смещений, специфичных для предметной области. Их статья , опубликованная в журнале Nature Machine Intelligence , в конечном итоге затрагивает один из старейших философских вопросов, а именно дилемму «природа против воспитания».

Дилемма «природа против воспитания» спорит о том, обладают ли люди врожденными индуктивными предубеждениями, влияющими на то, как они воспринимают объекты, людей и мир вокруг них в целом, или же они изначально являются «чистым листом», развивая предубеждения в результате своего опыта. Некоторые из предполагаемых врожденных предубеждений связаны со способностью классифицировать и маркировать объекты.

Команда Нью-Йоркского университета намеревалась исследовать эту дилемму с современной точки зрения. Для этого они обучили современные глубокие нейронные сети с самоконтролем на большом наборе данных, содержащем видео, снятое с точки зрения маленьких детей с помощью головных камер (камер, прикрепленных к шляпе или шлему).

«Маленькие дети разрабатывают сложные внутренние модели мира на основе своего визуального опыта», — пишут в своей статье А. Эмин Орхан и Бренден М. Лейк. «Могут ли такие модели быть изучены на основе визуального опыта ребенка без сильных индуктивных предубеждений? Чтобы исследовать это, мы обучаем современные нейронные сети на реалистичном прокси визуальном опыте ребенка без какого-либо явного наблюдения или индуктивных предубеждений, специфичных для конкретной предметной области. .»

Орхан и Лейк обучили двум типам методов глубокого обучения, а именно внедрению и генеративным моделям, примерно 200 часов видеозаписей с головной камеры, собранных у одного ребенка в течение двухлетнего периода. После предварительного обучения более 70 из этих моделей они протестировали их производительность в ряде задач компьютерного зрения и распознавания объектов, сравнив их с другими современными моделями компьютерного зрения.

«В среднем лучшие модели внедрения работают на приличных 70% от производительности высокопроизводительной модели, обученной с помощью ImageNet , несмотря на существенные различия в обучающих данных», — пишут Орхан и Лейк. «Они также изучают широкие семантические категории и возможности локализации объектов без явного контроля, но они менее объектно-ориентированы, чем модели, обученные во всей ImageNet.

«Генераторные модели, обученные на одних и тех же данных, успешно экстраполируют простые свойства частично замаскированных объектов, такие как их грубый контур, текстура, цвет или ориентация, но с трудом справляются с более мелкими деталями объекта».

Чтобы подтвердить свои выводы, исследователи провели дополнительные эксперименты с участием двух других маленьких детей . Их результаты соответствовали результатам, полученным во время их первого эксперимента, предполагая, что визуальные представления более высокого уровня могут быть изучены на основе уникального визуального опыта ребенка без учета сильных индуктивных предубеждений.

Результаты недавней работы Орхана и Лейка могут послужить источником вдохновения для психологов и нейробиологов, а также послужат основой для дальнейших исследований, изучающих дилемму природы и воспитания с использованием вычислительных инструментов. В целом команда предполагает, что предвзятость категоризации объектов зависит от уникальных характеристик зрительной системы человека, что приводит к получению изображений, отличных от тех, которые обычно используются для обучения моделей глубокого обучения.

«Мы надеемся, что наша работа вдохновит на новое сотрудничество между машинным обучением и психологией развития, поскольку влияние современного глубокого обучения на психологию развития до сих пор было относительно ограниченным», — заключают Орхан и Лейк в своей статье.

«Будущие алгоритмические достижения в сочетании с более богатыми и большими наборами данных по развитию можно оценить с помощью того же подхода, что еще больше обогащает наше понимание того, чему можно научиться из опыта ребенка с минимальными индуктивными предубеждениями».