Разработчики работают над совершенствованием системы распознавания лиц нейросетью

Человеческий мозг имеет отдельные и узкоспециализированные функциональные области, отвечающие за понимание языков, распознавание лиц и планирование наперед. Однако нейробиологам еще предстоит расшифровать высокую степень функциональной специализации, наблюдаемую в коре. В новом исследовании, опубликованном в Science Advances, Катарина Добс и группа ученых из отдела мозга и когнитивных наук Массачусетского технологического института и Цукермановского института мозга и поведения Колумбийского университета, Нью-Йорк, США, исследовали восприятие лица с помощью искусственных нейронных сетей, чтобы проверить гипотезу о том, что функциональная сегрегация распознавание лиц в мозгу отражает оптимизацию вычислений для более широкого применения визуального распознавания лиц. Команда показала, как функциональная визуальная сегрегация выявила широко распространенную тенденцию к оптимизации для создания функциональной специализации машин, а также дополнительно исследовала сложность явления по отношению к мозгу.

Функциональная специализация

Хотя идея функциональной локализации в мозге вызывала споры на протяжении веков , теперь она подтверждается неопровержимыми доказательствами. Области коры могут избирательно активироваться для выполнения конкретной перцептивной или когнитивной задачи , нарушение которой может привести к селективным нарушениям. Нейробиологи все больше стремятся понять, почему мозг демонстрирует такой уровень функциональной специализации. Возможности включают случайное развитие, чтобы легко добавлять модули и решать новые проблемы. Исследователи также выявили избирательную модуляцию психических процессов посредством функциональной специализации. И третья возможность — вычислительные причиныдля выполнения задач, которые не могут быть решены с помощью сравнительно универсального оборудования. В этой работе Добс и соавт. проверили третью гипотезу, чтобы понять один из наиболее известных случаев функциональной специализации мозга по отношению к визуальному распознаванию лиц. Команда использовала передовые глубокие сверточные нейронные сети (CNN) для достижения производительности человеческого уровня в некоторых задачах визуального распознавания . Основываясь на обширных исследованиях с обученными объектами и лицами сетями по распознаванию лиц и объектов, Dobs et al. выявили общую тенденцию к сегрегации задач в сетях, открывая двери для исследования конкретных архитектур и тренировочных диет для выявления задач, которые будут разделены в сетях и, гипотетически, также в мозге.

Эксперименты с повреждениями в последнем сверточном слое выявляют спонтанную сегрегацию задач. (A) Схема экспериментов с поражением последнего сверточных слоев (см. «Conv13» на рис. 1A) в VGG16. Каждый фильтр в слое был удален при измерении потерь для пакетов изображений лиц (вверху) и объектов (внизу). Фильтры были ранжированы по их соответствующим потерям, чтобы определить те, которые больше всего способствуют распознаванию лиц (красный) или объектов (оранжевый). (B) Нормализованная производительность задач лица и объекта после повреждения 20% фильтров с самым высоким рейтингом для задачи лица (вверху) и задачи объекта (внизу) в последнем сверточном слое. Столбики погрешностей обозначают 95% доверительных интервалов, загруженных по классам и стимулам. Предоставлено: Научные достижения (2022 г.). DOI: 10.1126/sciadv.abl8913

Сети, обученные только на объектах, плохо справляются с распознаванием лиц.

Чтобы проверить, служат ли CNN, обученные объектам, распознаванию лиц и наоборот, Добс и др. обучила две случайно инициализированные сети VGG16 , предложенные изначально А. Зиссерманом и К. Симояном из Оксфордского университета, для идентификации лиц и категоризации объектов. Как и ожидалось, команда декодировала незнакомые лица из сетей, обученных по лицам, и незнакомые объекты из сети, обученной объектам. Они отметили значительно худшую производительность при распознавании лиц с помощью сети, обученной объектам, чем сеть, обученную лицам, и наоборот для распознавания объектов, что указывает на то, что представления, полученные для конкретной задачи, не сразу переносятся на другую задачу. Как и в случае с мозгом, каждая задача извлекала выгоду из специализированных репрезентаций, специфичных для конкретной задачи.

Спонтанное разделение задач лица и объекта на этапах обработки среднего уровня. (A) Разделение задач, измеренное как комбинированный индекс различий в пропорциональном падении производительности в задачах лица и объекта, когда 20% фильтров с наибольшим вкладом отбрасываются в каждом сверточном слое. Разделение задач увеличилось после первых сверточных слоев до максимального показателя 0,75. Заштрихованная область представляет собой 95% доверительных интервалов, распределенных по классам и стимулам. (B) Изображения, оптимизированные для управления ответами в трех примерах фильтров среди 10 лучших выбранных фильтров для задачи лица (слева) и объекта (справа) в сверточных слоях 5, 9 и 13 (строки). Размер рецептивных полей увеличивается, а особенности становятся более специфичными для задачи на более поздних слоях. Кредит: Научные достижения(2022). DOI: 10.1126/sciadv.abl8913

Формирование сети с двойным обучением

Чтобы обойти ограничения, Dobs et al. под вопросом, приведет ли обучение одной сети к выполнению обеих задач к обнаружению общего высокопроизводительного функционального пространства для лиц и объектов. Чтобы решить эту проблему, они обучили новую сеть как идентификации лица, так и категоризации объектов. Сеть с двумя задачами неожиданно показала почти одинаковые результаты в каждой задаче, что указывает на общее пространство функций для сетей для решения обеих задач, что противоречит гипотезе о функциональной специализации для высокой производительности задачи. Другая возможность заключалась в том, что сеть научилась разделять себя на распознавание лиц и объектов, хотя команда не встраивала ничего в архитектуру сети, чтобы облегчить это. Чтобы проверить эту возможность, они провели серию экспериментов,распознавание объектов , несмотря на отсутствие индуктивной предвзятости, связанной с конкретной задачей, для поощрения результата.

CNN с двойным обучением больше всего коррелирует с поведением. Корреляции между поведенческими RDM для стимулов лица (слева, n = 14) или объекта (справа, n = 15) и специфичными для слоя RDM, полученными из паттернов активации в Face CNN (красный), Object CNN (желтый) и CNN с двойной задачей (серым цветом) на соответствующие стимулы. Области, заштрихованные цветом, обозначают бутстрапированный SEM среди участников. Горизонтальные полосы, заштрихованные серым цветом, обозначают предполагаемый потолок шума, основанный на изменчивости среди участников. Предоставлено: Научные достижения (2022 г.). DOI: 10.1126/sciadv.abl8913

Повышенная сегрегация задач по уровням, таким как мозг.

Добс и др. затем определяется, строится ли разделение задач на уровнях сети. В мозгу приматов обычные категории обрабатываются, чтобы иметь начальный набор общих признаков на ранних стадиях обработки (сетчатка и т. д.), после чего следует разветвление на пути, специфичные для категорий (лицо, тело и т. д.). Команда стремилась понять такое сходство с CNN с двойным обучением ( сверточные нейронные сети ).) и обнаружил, что разделение задач было небольшим на ранних уровнях, но увеличивалось с более поздними слоями. Согласно результатам, обработка лиц и объектов постепенно расходилась на средних стадиях обработки в сети, чтобы стать сильно сегрегированной на более поздних стадиях, во многом подобно тем признакам, которые наблюдаются в мозгу приматов. Дальнейшие исследования функций выявили иерархию обработки. Результаты показали, что наблюдаемая высокая степень функциональной сегрегации возникла не из-за предвзятости набора данных, а была обусловлена различными визуальными характеристиками среднего и высокого уровня для каждой задачи.

Спонтанная сегрегация в разной степени для распознавания еды или автомобиля. (A) В дополнение к модели с двумя задачами для задач лица и объектов (красный), мы обучили одну модель с двумя задачами для категоризации продуктов питания (зеленый) и объектов, а другую — для автомобилей (синий) и категоризации объектов. (B) Разделение задач измерялось путем повреждения наиболее важных фильтров для лиц, продуктов питания и автомобилей (соответственно) и объектов в каждом сверточном слое. Разделение задач было обнаружено для всех задач в той или иной степени. Разделение задач на машины и предметы усилилось позже, в меньшей степени, чем на еду или лица и предметы. Области, заштрихованные цветом, обозначают 95% доверительных интервалов, привязанных к классам и стимулам. Предоставлено: Научные достижения (2022 г.). DOI: 10.1126/sciadv.abl8913

Функционально разделенные сети и разная функциональная сегрегация

Работа отражала функциональную специализацию в зрительной системе человека, хотя было неясно, могут ли изученные виды признаков работать так же, как зрительная система человека. Чтобы изучить это, Добс и соавт. провел два поведенческих эксперимента, чтобы измерить воспринимаемое сходство стимулов лица и объекта. Для каждой задачи команда сопоставила матрицы несхожести поведенческого представления каждого участника для каждого слоя извилистых нейронных сетей, обученных на лицах, объектах и двух задачах. Сеть с двумя задачами зафиксировала поведение человека как в лице, так и в задачах, чтобы показать, как изученные решения выполняют задачи, аналогичные зрительной системе человека, и исследовала эту настройку для других визуальных категорий. Результат показал, что, хотя функциональная сегрегация, обнаруженная в мозге, также может быть обнаружена в запутанных нейронных сетях.мозги не совсем напоминали нюансы нейронных сетей .

Перспектива

Таким образом, Катарина Добс и ее коллеги всесторонне изучили функциональную специализацию организации мозга, чтобы проверить гипотезу о том, что специализация мозга может быть результатом оптимизации для множества естественных задач. Они предсказали, что совершенно разные вычислительные системы могут прийти к похожему решению, и проверили гипотезу в запутанных нейронных сетях (CNN), чтобы понять один из наиболее известных случаев функциональной специализации мозга — распознавание лиц. Результаты интересно показали, почему мозгорганизовано так, как есть. Результаты показывают, что функциональная сегрегация является естественным следствием решения нескольких задач. Методы, разработанные в этой работе, позволят ученым проверить эти гипотезы и дальнейшие идеи.