Дополнительные движения «глаз» — ключ к лучшему беспилотному вождению автомобилей

Андреа Бенуччи и его коллеги из Центра исследований мозга RIKEN разработали способ создания искусственных нейронных сетей, которые учатся распознавать объекты быстрее и точнее. Исследование, недавно опубликованное в научном журнале PLOS Computational Biology , фокусируется на всех незаметных движениях глаз, которые мы делаем, и показывает, что они служат жизненно важной цели, позволяя нам стабильно распознавать объекты. Эти результаты могут быть применены, например, к машинному зрению, чтобы облегчить самоуправляемым автомобилям обучение распознаванию важных объектов на дороге.

Несмотря на постоянные движения головы и глаз в течение дня, объекты в мире не размываются и не становятся неузнаваемыми, хотя физическая информация, поступающая на нашу сетчатку, постоянно меняется. Что, вероятно, делает возможной эту перцептивную стабильность, так это нейронные копии команд движения. Эти копии рассылаются по всему мозгу каждый раз, когда мы двигаемся, и считается, что они позволяют мозгу учитывать наши собственные движения и сохранять стабильность нашего восприятия.

Данные свидетельствуют о том, что в дополнение к стабильному восприятию движения глаз и их моторные копии также могут помочь нам стабильно распознавать объекты в мире, но как это происходит, остается загадкой. Бенуччи разработал сверточную нейронную сеть (CNN), которая предлагает решение этой проблемы. CNN был разработан для оптимизации классификации объектов в визуальной сцене, когда глаза движутся.

Во-первых, сеть была обучена классифицировать 60 000 черно-белых изображений по 10 категориям. Хотя он показал хорошие результаты на этих изображениях, при тестировании сдвинутых изображений, которые имитировали естественно измененный визуальный ввод, возникающий при движении глаз, производительность резко упала до уровня случайности. Однако классификация значительно улучшилась после обучения сети смещенными изображениями, если также были включены направление и размер движений глаз, которые привели к смещению.

В частности, добавление движений глаз и их моторных копий в сетевую модель позволило системе лучше справляться с визуальным шумом на изображениях. «Это усовершенствование поможет избежать опасных ошибок в машинном зрении », — говорит Бенуччи. «Благодаря более эффективному и надежному машинному зрению маловероятно, что изменения пикселей, также известные как «атаки противника», заставят, например, беспилотные автомобили помечать знак остановки как фонарный столб или военные беспилотники ошибочно классифицируют здание больницы как вражеская цель».

Перенести эти результаты в машинное зрение реального мира не так сложно, как кажется. Как объясняет Бенуччи, «преимущества имитации движений глаз и их эфферентных копий подразумевают, что «принуждение» датчика машинного зрения к контролируемым типам движений при информировании зрительной сети, отвечающей за обработку связанных изображений, о самостоятельно сгенерированных движениях. , сделало бы машинное зрение более надежным и сродни тому, что воспринимается человеческим зрением».

Следующим шагом в этом исследовании будет сотрудничество с коллегами, работающими с нейроморфными технологиями. Идея состоит в том, чтобы внедрить реальные схемы на основе кремния на основе принципов, изложенных в этом исследовании, и проверить, улучшают ли они возможности машинного зрения в реальных приложениях.