Водяные знаки ChatGPT могут защитить от дезинформации

Водяные знаки ChatGPT, DALL-E и других генеративных ИИ могут помочь защитить от мошенничества и дезинформации.

Вскоре после того, как просочились слухи о готовящемся обвинении бывшего президента Дональда Трампа, в сети появились изображения, якобы демонстрирующие его арест. Эти изображения выглядели как новостные фотографии, но они были поддельными. Они были созданы генеративной системой искусственного интеллекта.

Генеративный ИИ в виде генераторов изображений, таких как DALL-E , Midjourney и Stable Diffusion , и текстовых генераторов, таких как Bard , ChatGPT , Chinchilla и LLaMA , взорвался в публичной сфере. Сочетая хитроумные алгоритмы машинного обучения с миллиардами фрагментов контента, созданного людьми, эти системы могут делать все, что угодно: от создания устрашающе реалистичного изображения из подписи до синтезирования речи голосом президента Джо Байдена, замены одного человека на другого в видео. , или напишите связную статью из 800 слов из подсказки в заголовке.

Даже в наши дни генеративный ИИ способен создавать очень реалистичный контент. Моя коллега Софи Найтингейл и я обнаружили, что средний человек не может надежно отличить изображение реального человека от человека, созданного искусственным интеллектом. Хотя аудио и видео еще не полностью прошли через зловещую долину — изображения или модели людей, которые тревожат, потому что они близки, но не совсем реалистичны — они, вероятно, скоро это сделают. Когда это произойдет, а это практически гарантировано, искажать реальность будет все легче.

В этом новом мире будет совсем несложно создать видео, в котором генеральный директор говорит, что прибыль ее компании упала на 20%, что может привести к миллиардным потерям доли рынка, или создать видео, в котором мировой лидер угрожает военными действиями. что может спровоцировать геополитический кризис или вставить чье-либо изображение в видео сексуального характера.

Достижения в области генеративного искусственного интеллекта вскоре приведут к тому, что поддельный, но визуально убедительный контент будет распространяться в Интернете, что приведет к еще более запутанной информационной экосистеме. Вторичным последствием является то, что недоброжелатели смогут легко отклонить как фальшивые реальные видеодоказательства всего, от полицейского насилия и нарушений прав человека до сжигания сверхсекретных документов мировым лидером.

По мере того, как общество смотрит вниз на то, что почти наверняка является только началом этих достижений в области генеративного ИИ, существуют разумные и технологически осуществимые меры, которые можно использовать для смягчения этих злоупотреблений. Как ученый-компьютерщик, специализирующийся на криминалистике изображений , я считаю, что ключевым методом является нанесение водяных знаков.

Водяные знаки

Существует долгая история маркировки документов и других предметов, чтобы доказать их подлинность, указать право собственности и подделку. Сегодня Getty Images, огромный архив изображений, добавляет видимый водяной знак ко всем цифровым изображениям в своем каталоге. Это позволяет клиентам свободно просматривать изображения, защищая активы Getty.

Незаметные цифровые водяные знаки также используются для управления цифровыми правами . Водяной знак можно добавить к цифровому изображению, например, настроив каждый 10-й пиксель изображения так, чтобы его цвет (обычно число в диапазоне от 0 до 255) был четным. Поскольку эта настройка пикселей настолько незначительна, водяной знак незаметен. А поскольку этот периодический образец вряд ли возникнет в природе и его легко проверить, его можно использовать для проверки происхождения изображения.

Даже изображения среднего разрешения содержат миллионы пикселей, а это значит, что в водяной знак может быть встроена дополнительная информация, включая уникальный идентификатор, который кодирует генерирующее программное обеспечение, и уникальный идентификатор пользователя. Такой же незаметный водяной знак можно применять к аудио и видео.

Идеальный водяной знак незаметен, а также устойчив к простым манипуляциям, таким как обрезка, изменение размера, настройка цвета и преобразование цифровых форматов. Хотя пример водяного знака цвета пикселя не является устойчивым, поскольку значения цвета могут быть изменены, было предложено множество стратегий водяных знаков, которые являются надежными, хотя и не непроницаемыми, для попыток их удаления.

Водяные знаки и ИИ

Эти водяные знаки можно запечь в генеративные системы искусственного интеллекта , пометив водяными знаками все обучающие данные , после чего сгенерированный контент будет содержать тот же водяной знак. Этот встроенный водяной знак привлекателен, потому что это означает, что инструменты генеративного ИИ могут быть открытыми — как генератор изображений Stable Diffusion — без опасений, что процесс создания водяных знаков может быть удален из программного обеспечения генератора изображений. В Stable Diffusion есть функция водяных знаков , но, поскольку это открытый исходный код , любой может просто удалить эту часть кода.

OpenAI экспериментирует с системой нанесения водяных знаков на творения ChatGPT. Символы в абзаце, конечно, не могут быть изменены, как значение пикселя, поэтому текстовые водяные знаки принимают другую форму.

Генеративный ИИ на основе текста основан на создании следующего наиболее разумного слова в предложении. Например, начиная с фрагмента предложения «система ИИ может…», ChatGPT предскажет, что следующим словом должно быть «учиться», «предсказывать» или «понимать». С каждым из этих слов связана вероятность, соответствующая вероятности того, что каждое слово появится следующим в предложении. ChatGPT изучил эти вероятности из большого объема текста, на котором он обучался.

Сгенерированный текст может быть помечен водяными знаками путем тайной пометки подмножества слов, а затем выбора слова как синонимического помеченного слова. Например, слово с тегом «понимать» можно использовать вместо «понимать». Периодически изменяя выбор слов таким образом, часть текста помечается водяными знаками на основе определенного распределения помеченных слов. Этот подход не работает для коротких твитов, но обычно эффективен для текста из 800 и более слов, в зависимости от конкретных деталей водяного знака.

Системы генеративного ИИ могут и, я считаю, должны ставить водяные знаки на весь свой контент, упрощая идентификацию и, при необходимости, вмешательство. Если отрасль не сделает этого добровольно, законодатели могут принять закон для обеспечения соблюдения этого правила. Недобросовестные люди, конечно же, не будут соблюдать эти стандарты. Но если основные онлайн-привратники — магазины приложений Apple и Google, Amazon, Google, облачные сервисы Microsoft и GitHub — будут обеспечивать соблюдение этих правил, запрещая несовместимое программное обеспечение, вред будет значительно уменьшен.

Подписание подлинного контента

Если подойти к проблеме с другой стороны, можно применить аналогичный подход для аутентификации оригинальных аудиовизуальных записей в момент захвата. Специализированное приложение камеры может криптографически подписывать записанный контент по мере его записи. Невозможно подделать эту подпись, не оставив следов попытки. Затем подпись сохраняется в централизованном списке доверенных подписей.

Хотя это и не применимо к тексту, аудиовизуальный контент может быть проверен как созданный человеком. Coalition for Content Provenance and Authentication (C2PA), совместная работа по созданию стандарта для аутентификации мультимедиа, недавно выпустила открытую спецификацию для поддержки этого подхода. Благодаря тому, что крупные организации, включая Adobe, Microsoft, Intel, BBC и многие другие, присоединяются к этим усилиям, C2PA имеет хорошие возможности для создания эффективной и широко распространенной технологии аутентификации.

Комбинированное подписание и нанесение водяных знаков на контент, созданный людьми и искусственным интеллектом, не предотвратит все формы злоупотреблений, но обеспечит некоторую степень защиты. Любые меры безопасности должны будут постоянно адаптироваться и совершенствоваться, поскольку противники находят новые способы использования новейших технологий в качестве оружия.

Точно так же, как общество десятилетиями вело борьбу с другими киберугрозами, такими как спам, вредоносное ПО и фишинг, мы должны подготовиться к столь же затяжной битве за защиту от различных форм злоупотреблений, совершаемых с использованием генеративного ИИ.