Google StyleDrop генерирует изображения из текста

Да Винчи понадобилось 16 лет, чтобы нарисовать Мону Лизу. Некоторые говорят, что ему понадобилось 12 лет только для того, чтобы накрасить ей губы.

Слухи о том, что причиной был медленный интернет, не соответствуют действительности.

Но да Винчи, эрудит, который занимался ботаникой, инженерией, наукой, скульптурой и геологией, а также живописью, наверняка оценил бы новый преобразователь генеративного зрения, разработанный Google Research.

Google StyleDrop , как описано в документе от 1 июня на сервере препринтов arXiv , позволяет пользователям описывать объекты и указывать художественные стили, которые они хотят включить в сгенерированный вывод.

StyleDrop возвращает изображения, отражающие требования пользователя, примерно за три минуты.

«Предлагаемый метод является чрезвычайно универсальным и фиксирует нюансы и детали пользовательского стиля, такие как цветовые схемы, затенение, шаблоны дизайна, а также локальные и глобальные эффекты», — говорится в отчете Google «StyleDrop: генерация текста в изображение». в любом стиле».

StyleDrop также создает типографику, которая точно включает стилистические особенности изображений.

Например, пользователи могли предложить изображение моста, буквы, а затем указать стиль рисования. Такими стилями могут быть «плавление золотого рендеринга», «деревянная скульптура», «3D-рендеринг», «мультяшный рисунок» или любой другой предпочтительный стиль. Единственным ограничением является воображение.

Затем StyleDrop будет генерировать впечатляющие изображения объектов с капающим мостом в стиле Дали или, возможно, в мультяшной версии вместе с буквами, имеющими те же характеристики.

StyleDrop работает совместно с Muse от Google, преобразователем генеративного зрения, представленным ранее в этом году, который предлагает замечательную степень фотореализма. Программа Muse была обучена 3 миллиардам параметров, что обеспечивает возможность создания высококачественных изображений.

Исследователи оценили точность и качество выходных данных StyleDrop, используя стандартный отраслевой стандарт CLIP для оценки текста и стиля, а также отзывы пользователей. Оценки показали, что StyleDrop «убедительно превосходит» другие ведущие методы генерации изображений и текста, включая DreamBooth, Imagen и Stable Diffusion.

Разработчики рассматривают эту программу, которая еще не выпущена для широкой публики, как неоценимую помощь арт-директорам и графическим дизайнерам, которые могут создавать фотореалистичные изображения обозначенных продуктов или тем, которые включают текст, отражающий те же цвета, структуру и стиль.

Для кампании нового продукта, скажем, для нового бренда газированных напитков, художник может предложить всего в нескольких словах стеклянную бутылку гладкой формы, расположенную среди тысяч тюльпанов на голландском поле, с сопроводительным текстом, состоящим из букв, созданных из 3D-рендеринга стекла, в в стиле импрессионистов Моне. За три минуты, при правильной формулировке, могла родиться новая рекламная кампания с теплым, ярким, живописным небом.

Известный типограф Гельмут Шмидт однажды сказал: «Типографику нужно чувствовать. Типографику нужно испытать». StyleDrop вполне может помочь дизайнерам сделать свою работу более интимной и взаимосвязанной.

Однако в отчете признается, что защита авторских прав вызывает озабоченность.

«Мы признаем потенциальные ловушки, такие как возможность копировать стили отдельных художников без их согласия, и призываем к ответственному использованию нашей технологии», — говорится в отчете.

И какие инструкции да Винчи использовал бы для StyleDrop? «Нарисуйте привлекательную дворянку, улыбающуюся, но не слишком, сидящую на открытом воздухе на фоне гор. Нарисуйте в стиле… Да Винчи». Если бы работа была выполнена за три минуты — вместо 16 лет — у Леонардо, который любил ботанику, было бы гораздо больше времени, чтобы выйти и понюхать эти розы.