Инженеры открыли новый метод идентификации текста, сгенерированного ИИ

Ученые-компьютерщики из Columbia Engineering разработали преобразующий метод обнаружения текста, сгенерированного искусственным интеллектом. Их результаты обещают произвести революцию в том, как мы аутентифицируем цифровой контент, решая растущие проблемы, связанные с большими языковыми моделями (LLM), цифровой целостностью, дезинформацией и доверием.

Профессора компьютерных наук Цзюньфэн Ян и Карл Вондрик возглавили разработку Raidar (genRative AI Detection viA Rewriting), который представляет инновационный подход для определения того, был ли текст написан человеком или сгенерирован искусственным интеллектом или LLM, такими как ChatGPT, без необходимости доступа к внутренняя работа модели.

Документ, включающий код и наборы данных с открытым исходным кодом, будет представлен на Международной конференции по представлениям обучения ( ICLR ) в Вене, Австрия, 7–11 мая 2024 г. В настоящее время он доступен на сервере препринтов arXiv.

Исследователи использовали уникальную характеристику LLM, которую они называют «упрямством»: LLM демонстрируют склонность изменять написанный человеком текст с большей готовностью, чем текст, созданный искусственным интеллектом. Это происходит потому, что LLM часто считают текст, сгенерированный ИИ, уже оптимальным и поэтому вносят минимальные изменения.

Новый подход Raidar использует языковую модель для перефразирования или изменения заданного текста, а затем измеряет, сколько изменений система вносит в данный текст. Raidar получает фрагмент текста, например сообщение в социальной сети , обзор продукта или сообщение в блоге, а затем предлагает LLM переписать его. LLM отвечает переписанным текстом, а Райдар сравнивает исходный текст с переписанным для измерения изменений. Многие изменения означают, что текст, скорее всего, написан людьми, тогда как меньшее количество изменений означает, что текст, скорее всего, сгенерирован машиной.

Обращает на себя внимание удивительная точность «Райдара» — он превосходит предыдущие методы до 29%. Такой скачок в производительности достигается за счет использования современных LLM для перезаписи входных данных без необходимости доступа к архитектуре, алгоритмам или обучающим данным ИИ — впервые в области обнаружения текста, генерируемого ИИ.

Raidar также очень точен даже при работе с короткими текстами или фрагментами. Это значительный прорыв, поскольку предыдущие методы требовали, чтобы длинные тексты имели хорошую точность. Выявление точности и обнаружение дезинформации особенно важно в сегодняшней онлайн-среде, где короткие сообщения, такие как сообщения в социальных сетях или комментарии в Интернете, играют ключевую роль в распространении информации и могут оказать глубокое влияние на общественное мнение и дискурс.

Аутентификация цифрового контента

В эпоху, когда возможности искусственного интеллекта продолжают расширяться, способность различать контент, созданный человеком и машиной, имеет решающее значение для поддержания целостности и доверия на цифровых платформах. От социальных сетей до новостных статей , научных эссе и онлайн-обзоров — Raidar обещает стать мощным инструментом в борьбе с распространением дезинформации и обеспечении достоверности цифровой информации.

«Способность нашего метода точно обнаруживать контент, созданный искусственным интеллектом, заполняет важнейший пробел в современных технологиях», — сказал ведущий автор статьи Чэнчжи Мао, бывший доктор философии. студент Колумбийского инженерного факультета и нынешний постдок Янга и Вондрик. «Это не просто интересно; это важно для всех, кто ценит целостность цифрового контента и социальные последствия расширяющихся возможностей ИИ».

Команда планирует расширить свое расследование, включив в него различные текстовые области, включая многоязычный контент и различные языки программирования. Они также изучают возможности обнаружения машинно-генерируемых изображений, видео и аудио, стремясь разработать комплексные инструменты для идентификации контента, созданного искусственным интеллектом, в различных типах мультимедиа.