Разработан фреймворк распознавания лиц на основе преобразователей зрения

Инструменты распознавания лиц — это вычислительные модели, которые могут идентифицировать конкретных людей на изображениях, а также в кадрах видеонаблюдения или видеозаписях. Эти инструменты уже используются в самых разных реальных условиях, например, помогая правоохранительным органам и агентам пограничного контроля в их уголовных расследованиях и усилиях по наблюдению, а также для аутентификации и биометрических приложений. Несмотря на то, что большинство существующих моделей работают на удивление хорошо, все еще может быть много возможностей для улучшения.

Исследователи из Лондонского университета королевы Марии недавно создали новую многообещающую архитектуру для распознавания лиц. Эта архитектура, представленная в статье, предварительно опубликованной на arXiv , основана на стратегии извлечения черт лица из изображений, которая отличается от большинства предложенных до сих пор.

«Комплексные методы с использованием сверточных нейронных сетей (CNN) и потерь на основе маржи доминируют в исследованиях по распознаванию лиц», — сказали TechXplore Чжунлинь Сан и Георгиос Цимиропулос, два исследователя, проводившие исследование.

«В этой работе мы отходим от этой настройки двумя способами: (а) мы используем Vision Transformer в качестве архитектуры для обучения очень сильной базовой линии для распознавания лиц, просто называемой fViT, которая уже превосходит большинство современных методы распознавания лиц. (b) Во-вторых, мы извлекаем выгоду из неотъемлемого свойства Transformer обрабатывать информацию (визуальные маркеры), извлеченные из нерегулярных сеток, чтобы разработать конвейер для распознавания лиц, который напоминает методы распознавания лиц на основе частей ».

Наиболее распространенные подходы к распознаванию лиц основаны на CNN, классе искусственных нейронных сетей (CNN), которые могут автономно учиться находить закономерности в изображениях, например, идентифицировать определенные объекты или людей. Хотя некоторые из этих методов показали очень хорошие результаты, недавняя работа выявила потенциал другого класса алгоритмов распознавания лиц, известных как преобразователи зрения (ViTs).

В отличие от CNN, которые обычно анализируют изображения целиком, ViT разбивают изображение на фрагменты определенного размера, а затем добавляют к этим фрагментам вложения. Полученная последовательность векторов затем подается на стандартный преобразователь — модель глубокого обучения, которая по-разному взвешивает разные части анализируемых данных.

«ViT, в отличие от CNN, может фактически работать с фрагментами, извлеченными из нерегулярных сеток, и не требует равномерно распределенной сетки выборки, используемой для сверток», — объяснили исследователи в своей статье. «Поскольку человеческое лицо представляет собой структурированный объект, состоящий из частей (например, глаз, носа, губ), и вдохновленный оригинальной работой по распознаванию лиц на основе частей до глубокого обучения , мы предлагаем применить ViT к участкам, представляющим части лица».

Созданная Sun и Tzimiropoulos архитектура преобразователя зрения, получившая название fViT, состоит из облегченной сети и преобразователя зрения. Сеть предсказывает координаты ориентиров лица (например, носа, рта и т. д.), а преобразователь анализирует фрагменты, содержащие предсказанные ориентиры.

Исследователи обучили различные преобразователи лиц, используя два известных набора данных, а именно MS1MV3, который содержит изображения 93 431 человека, и VGGFace2, содержащий 3,1 миллиона изображений и 8 600 личностей. Впоследствии они провели серию тестов для оценки своих моделей, а также изменили некоторые их функции, чтобы проверить, как это повлияло на их производительность.

Их архитектура показала замечательную точность для всех наборов данных, на которых она была протестирована, сравнимую с точностью многих других современных моделей распознавания лиц. Кроме того, их модели, по-видимому, успешно очерчивали ориентиры лица без специальной подготовки для этого.

В будущем это недавнее исследование может вдохновить на разработку других моделей распознавания лиц на основе преобразователей зрения. Кроме того, архитектура исследователей может быть реализована в приложениях или программных инструментах, которые могут извлечь выгоду из выборочного анализа различных ориентиров лица.