ИИ можно использовать для преобразования текста в изображение

ИИ для преобразования текста в изображение: мощная и простая в использовании технология для создания произведений искусства и подделок.

Введите «Плюшевые мишки, работающие над новыми исследованиями искусственного интеллекта на Луне в 1980-х годах» в любой из недавно выпущенных генераторов изображений с искусственным интеллектом, и всего через несколько секунд сложное программное обеспечение создаст устрашающе уместное изображение.

Казалось бы, связанная только вашим воображением, эта последняя тенденция в области синтетических медиа восхитила многих, вдохновила других и вселила страх в некоторых.

Google, исследовательская фирма OpenAI и поставщик искусственного интеллекта Stability AI разработали достаточно мощный генератор изображений для преобразования текста в изображение, поэтому некоторые наблюдатели задаются вопросом, смогут ли люди в будущем доверять фотографическим записям .

Как ученый-компьютерщик, специализирующийся на криминалистике изображений , я много думал об этой технологии: на что она способна, как каждый из инструментов был представлен общественности и какие уроки можно извлечь из того, что эта технология продолжает свое развитие. баллистическая траектория.

Состязательный подход

Хотя их цифровой предшественник восходит к 1997 году, первые синтетические изображения появились всего пять лет назад. В своем первоначальном воплощении так называемые генеративно-состязательные сети (GAN) были наиболее распространенной техникой синтеза изображений людей, кошек, пейзажей и всего остального.

GAN состоит из двух основных частей: генератора и дискриминатора. Каждый из них представляет собой тип большой нейронной сети, которая представляет собой набор взаимосвязанных процессоров, примерно аналогичных нейронам.

Генератор, которому поручено синтезировать изображение человека, начинает со случайного набора пикселей и передает это изображение дискриминатору, который определяет, может ли он отличить сгенерированное изображение от реальных лиц. Если это возможно, дискриминатор предоставляет обратную связь генератору, который изменяет некоторые пиксели и пытается снова. Эти две системы противостоят друг другу в состязательной петле. В конце концов, дискриминатор не может отличить сгенерированное изображение от реального изображения.

Текст в изображение

Как только люди начали бороться с последствиями дипфейков, созданных GAN, включая видео, которые показывают, что кто-то делает или говорит что-то, чего он не делал, на сцене появился новый игрок: дипфейки с преобразованием текста в изображение.

В этом последнем воплощении модель обучается на большом наборе изображений, каждое из которых снабжено кратким текстовым описанием. Модель постепенно искажает каждое изображение до тех пор, пока не останется только визуальный шум, а затем обучает нейронную сеть обращению этого искажения. Повторяя этот процесс сотни миллионов раз, модель учится преобразовывать чистый шум в связное изображение из любой подписи.

В то время как GAN способны создавать изображения только общей категории, механизмы синтеза текста в изображение более мощные. Они способны создать практически любое изображение, в том числе изображения, которые включают взаимодействие между людьми и объектами со специфическими и сложными взаимодействиями, например, «Президент Соединенных Штатов сжигает секретные документы, сидя у костра на пляже во время заката».

Генератор изображений OpenAI для преобразования текста в изображение, DALL-E, покорил Интернет, когда был представлен 5 января 2021 года. Бета-версия инструмента стала доступна 1 миллиону пользователей 20 июля 2022 года. мир нашел, казалось бы, бесконечные способы стимулировать DALL-E, создавая восхитительные, причудливые и фантастические образы.

Однако широкий круг людей, от ученых-компьютерщиков до ученых-правоведов и регулирующих органов, размышлял о потенциальном неправомерном использовании технологии. Глубокие фейки уже использовались для создания порнографии без согласия, совершения мелкого и крупного мошенничества и разжигания дезинформационных кампаний. Эти еще более мощные генераторы изображений могут подлить масла в огонь этих злоупотреблений.

Три генератора изображений, три разных подхода

Зная о потенциальных злоупотреблениях, Google отказался выпускать свою технологию преобразования текста в изображение. OpenAI использовал более открытый, но все же осторожный подход, когда первоначально выпустил свою технологию только для нескольких тысяч пользователей (включая меня). Они также установили ограждения для допустимых текстовых подсказок, включая отсутствие наготы, ненависти, насилия или идентифицируемых лиц. Со временем OpenAI расширил доступ, снизил некоторые ограничения и добавил дополнительные функции, включая возможность семантического изменения и редактирования реальных фотографий.

Stability AI применил еще один подход, выбрав полную версию Stable Diffusion без каких-либо ограничений на то, что можно синтезировать. В ответ на опасения по поводу возможных злоупотреблений основатель компании Эмад Мостак сказал: «В конечном счете, люди несут ответственность за то, насколько этично, морально и законно они используют эту технологию».

Тем не менее, во второй версии Stable Diffusion удалена возможность рендеринга изображений контента NSFW и детей, поскольку некоторые пользователи создали изображения жестокого обращения с детьми. Отвечая на призывы к цензуре, Мостак указал, что, поскольку Stable Diffusion является открытым исходным кодом, пользователи могут по своему усмотрению добавлять эти функции обратно .

Джинн из бутылки

Независимо от того, что вы думаете о подходе Google или OpenAI, Стабильный ИИ сделал их решения в значительной степени неуместными. Вскоре после объявления Stability AI с открытым исходным кодом OpenAI снизила свои ограничения на создание изображений узнаваемых людей. Когда дело доходит до такого типа общих технологий, общество находится во власти наименьшего общего знаменателя — в данном случае, стабильного ИИ.

Стабильность ИИ может похвастаться тем, что его открытый подход отбирает мощные технологии ИИ у немногих, предоставляя их в руки многим . Я подозреваю, что мало кто будет так быстро чествовать исследователя инфекционных заболеваний, опубликовавшего формулу смертельного переносимого по воздуху вируса, созданного из кухонных ингредиентов, утверждая при этом, что эта информация должна быть широко доступна. Синтез изображений, конечно, не представляет такой же прямой угрозы, но продолжающаяся эрозия доверия имеет серьезные последствия, начиная от уверенности людей в результатах выборов и заканчивая реакцией общества на глобальную пандемию и изменение климата.

Двигаясь вперед, я считаю, что технологам необходимо будет учитывать как преимущества, так и недостатки своих технологий и разрабатывать стратегии смягчения последствий до того, как будет нанесен предсказуемый вред. Мне и другим исследователям придется продолжать разработку криминалистических методов, позволяющих отличить настоящие изображения от подделок. Регулирующим органам придется начать более серьезно относиться к тому, как эти технологии используются в качестве оружия против отдельных лиц, обществ и демократий.

И каждому придется научиться тому, как стать более проницательным и критически относиться к тому, как они потребляют информацию в Интернете.