Дополненная реальность (AR) стала горячей темой в индустрии развлечений, моды и макияжа. Хотя в этих областях существует несколько различных технологий, динамическое отображение проекций лица (DFPM) является одним из самых сложных и визуально ошеломляющих. Вкратце, DFPM заключается в проецировании динамических визуальных образов на лицо человека в реальном времени с использованием усовершенствованного отслеживания лица для обеспечения плавной адаптации проекций к движениям и выражениям.
Хотя в идеале воображение должно быть единственным, что ограничивает возможности DFPM в дополненной реальности, этот подход сдерживается техническими проблемами. Проецирование визуальных образов на движущееся лицо подразумевает, что система DFPM может распознавать черты лица пользователя, такие как глаза, нос и рот, менее чем за миллисекунду.
Даже небольшие задержки в обработке или незначительные несоответствия между координатами изображения камеры и проектора могут привести к ошибкам проекции — или «артефактам несоответствия», — которые могут заметить зрители, что испортит погружение.
На этом фоне исследовательская группа из Института науки Токио, Япония, приступила к поиску решений существующих проблем в DFPM. Под руководством доцента Ёсихиро Ватанабе, а также в составе аспиранта г-на Хао-Лун Пэна, группа представила ряд инновационных стратегий и методов и объединила их в современную высокоскоростную систему DFPM. Их выводы были опубликованы в IEEE Transactions on Visualization and Computer Graphics 17 января 2025 года.
Во-первых, исследователи разработали гибридную технику под названием «метод высокоскоростного отслеживания лица», которая объединяет два разных подхода параллельно для обнаружения ориентиров лица в режиме реального времени . Они использовали метод под названием «Ансамбль деревьев регрессии» (ERT) для реализации быстрого обнаружения.
Они также реализовали способ эффективной обрезки входящих изображений до лица пользователя, чтобы быстрее обнаруживать ориентиры; они достигли этого, используя временную информацию из предыдущих кадров для ограничения «области поиска». Чтобы помочь обнаружению на основе ERT восстановиться после ошибок или сложных ситуаций, они объединили его с более медленным вспомогательным методом, который обеспечивает высокую точность при более низкой скорости.
Используя эту гениальную стратегию, исследователи достигли беспрецедентной скорости в DFPM. «Объединяя результаты высокоточных, но медленных методов обнаружения и низкоточных, но быстрых методов обнаружения параллельно и компенсируя временные расхождения, мы достигли высокоскоростного выполнения всего за 0,107 миллисекунд, сохраняя при этом высокую точность», — говорит Ватанабе.
Команда также занялась неотложной проблемой: ограниченная доступность видеоданных движений лица для обучения моделей. Они создали инновационный метод для имитации видеоаннотаций с высокой частотой кадров с использованием существующих наборов данных неподвижных изображений лица. Это позволило их алгоритмам правильно изучать информацию о движении при высокой частоте кадров.
Наконец, исследователи предложили коаксиальную установку проектора-камеры со сдвигом линз, чтобы помочь минимизировать артефакты выравнивания. «Механизм сдвига линз, встроенный в оптическую систему камеры, выравнивает ее с верхней проекцией оптической системы проектора, что приводит к более точному выравниванию координат», — объясняет Ватанабэ. Таким образом, команда достигла высокого оптического выравнивания с ошибкой всего в 1,274 пикселя для пользователей, находящихся на глубине от 1 м до 2 м.
В целом, различные методы, разработанные в этом исследовании, будут способствовать развитию области DFPM, что приведет к созданию более убедительных и гиперреалистичных эффектов, которые преобразят представления, показы мод и художественные презентации.