Структура для повышения безопасности сетей генерации текста в изображения

Появление алгоритмов машинного обучения, которые могут генерировать тексты и изображения, следуя инструкциям пользователей, открыло новые возможности для недорогого создания конкретного контента. Классом этих алгоритмов, которые радикально меняют творческие процессы во всем мире, являются так называемые генеративные сети преобразования текста в изображение (T2I).

Инструменты искусственного интеллекта (ИИ) T2I , такие как DALL-E 3 и Stable Diffusion, представляют собой модели, основанные на глубоком обучении, которые могут генерировать реалистичные изображения, соответствующие текстовым описаниям или подсказкам пользователя. Хотя эти инструменты искусственного интеллекта становятся все более распространенными, их неправильное использование создает значительные риски, начиная от нарушения конфиденциальности и заканчивая распространением дезинформации или манипулированием изображениями.

Исследователи из Гонконгского университета науки и технологий и Оксфордского университета недавно разработали Latent Guard — структуру, предназначенную для повышения безопасности генеративных сетей T2I. Их структура, изложенная в документе, предварительно опубликованном на arXiv , может предотвратить создание нежелательного или неэтичного контента путем обработки запросов пользователя и обнаружения присутствия любых концепций, включенных в обновляемый черный список.

«Благодаря способности генерировать высококачественные изображения модели T2I могут быть использованы для создания нежелательного контента», — пишут Рунтао Лю, Ашкан Хакзар и их коллеги в своей статье.

«Чтобы предотвратить неправомерное использование, существующие меры безопасности основаны либо на текстовых черных списках, которые можно легко обойти, либо на классификации вредоносного контента, требующей больших наборов данных для обучения и предлагающей низкую гибкость. Поэтому мы предлагаем Latet Guard, структуру, предназначенную для улучшения мер безопасности. в поколении T2I».

Система Latent Guard, разработанная Лю, Хакзаром и их коллегами, черпает вдохновение из предыдущих подходов на основе черных списков для повышения безопасности генеративных сетей T2I. По сути, эти подходы заключаются в создании списков «запрещенных» слов, которые нельзя включать в подсказки пользователю, что ограничивает неэтичное использование этих сетей.

Ограничением большинства существующих методов на основе черных списков является то, что злоумышленники могут обойти их, перефразировав приглашение и воздерживаясь от использования слов из черного списка. Это означает, что в конечном итоге они все равно смогут создавать оскорбительный или неэтичный контент, который они хотят создавать и потенциально распространять.

Чтобы преодолеть это ограничение, платформа Latent Guard выходит за рамки точной формулировки входных текстов или пользовательских подсказок, извлекая функции из текста и отображая их в ранее изученном скрытом пространстве. Это усиливает его способность обнаруживать нежелательные подсказки, предотвращая создание изображений для этих подсказок.

«Вдохновленный подходами на основе черных списков, Latent Guard изучает скрытое пространство поверх текстового кодировщика модели T2I, где можно проверить наличие вредоносных концепций во входных текстовых внедрениях», — пишут Лю, Хакзар и их коллеги.

«Предлагаемая нами структура состоит из конвейера генерации данных, специфичного для конкретной задачи, с использованием больших языковых моделей, специальных архитектурных компонентов и контрастной стратегии обучения, позволяющей извлечь выгоду из сгенерированных данных».

Лю, Хакзар и их коллеги оценили свой подход в серии экспериментов, используя три различных набора данных и сравнивая его эффективность с эффективностью четырех других базовых методов генерации T2I. Один из используемых ими наборов данных, а именно набор данных CoPro, был разработан их командой специально для этого исследования и содержал в общей сложности 176 516 безопасных и небезопасных/неэтичных текстовых подсказок.

«Наши эксперименты показывают, что наш подход позволяет надежно обнаруживать небезопасные подсказки во многих сценариях и обеспечивает хорошую производительность обобщения для различных наборов данных и концепций», — пишут исследователи.

Первоначальные результаты, собранные Лю, Хакзаром и их коллегами, показывают, что Latent Guard является очень многообещающим подходом к повышению безопасности сетей генерации T2I, снижая риск того, что эти сети будут использоваться ненадлежащим образом. Команда планирует вскоре опубликовать базовый код своей платформы и набор данных CoPro на GitHub, что позволит другим разработчикам и исследовательским группам экспериментировать со своим подходом.