Исследование, опубликованное в Международном журнале Ad Hoc и Ubiquitous Computing, представляет новый подход к решению проблем, связанных с технологией дипфейков, которая генерирует манипулируемый медиаконтент, очень похожий на подлинные кадры.
Новый метод сочетает в себе модели miniXception и долговременной кратковременной памяти (LSTM) для более эффективного анализа подозрительного контента и выявления дипфейковых изображений с точностью более 99%.
Хотя фейковые и мошеннические видео и изображения существуют уже много лет, термин «дипфейк» чаще относится к манипулируемым видео или изображениям, созданным с использованием методов искусственного интеллекта и глубокого обучения. Эти технологии позволяют пользователям накладывать или заменять исходное содержимое изображения или видео другим контентом.
Обычно на видео могут быть подделаны лицо и голос человека . Такие дипфейки могут использоваться в развлекательных целях, как в случае со многими приложениями, которые позволяют обычным пользователям создавать «забавный» контент с участием своих друзей и семьи или даже знаменитостей.
Однако более коварное использование дипфейков привлекло внимание общественности из-за возможности обмана зрителей, что часто приводит к опасениям по поводу дезинформации, нарушения конфиденциальности и манипулирования общественным и политическим дискурсом .
Такие видео представляют собой серьезную угрозу демократии, поскольку как избиратели, так и потребители могут столкнуться с, казалось бы, законным политическим контентом, который является фальшивой пропагандой со злыми намерениями. Выявление дипфейкового контента сейчас важнее, чем когда-либо, во времена повышенной политической напряженности и нестабильности. Существует острая необходимость в мощных методах обнаружения и осведомленности об их существовании и потенциальных последствиях.
До сих пор обнаружению дипфейков препятствовали низкие показатели точности и трудности с обобщением различных наборов данных. Юн Лю, Сюй Чжао и Руоси Чэн из Университета информационной инженерии Сил стратегической поддержки НОАК в Хэнани, Тяньнин Сунь из лаборатории Чжэцзян, Цзунхуэй Ван из Чжэцзянского университета, Китай, и Баолан Ши из Университета Колорадо в Боулдере, Колорадо, США предложили модель, которая повышает точность предыдущих подходов.
Команда провела обучение и тестирование между наборами данных, используя методы трансферного обучения, чтобы улучшить способность модели обобщать различные наборы данных. Они использовали потерю фокуса во время обучения, чтобы сбалансировать выборки и еще больше улучшить обобщение.
Их тесты демонстрируют перспективность этого подхода, показав точность обнаружения 99,05% в наборе данных FaceSwap. Это лучше, чем предыдущие методы, такие как CNN-GRU, и требует меньше параметров для достижения такого уровня успеха.