Создана модель для создания художественных изображений на основе текстовых описаний

Инструменты искусственного интеллекта (ИИ) оказались очень ценными для выполнения широкого круга задач. Хотя они в основном используются для повышения производительности или упрощения повседневных процессов, они также показали себя многообещающими для автоматического создания творческих текстов и художественных изображений.

Исследователи из Университета Ватерлоо и Института Куранта Нью-Йоркского университета недавно создали инструмент искусственного интеллекта, который может автоматически генерировать уникальные художественные изображения на основе текстовых описаний. Их метод, представленный в статье, предварительно опубликованной на arXiv, основан на состязательной сети, генерирующей динамическую память (DM-GAN), модели, основанной на двух искусственных нейронных сетях , которые работают вместе для создания все более убедительных изображений.

«Мы создаем комплексное решение, которое может генерировать художественные изображения из текстовых описаний», — говорит Цинхэ Тянь и проф. Жан-Клод Франкитти писал в своей газете.

Ключевой идеей недавней работы Тиана и Франкитти было создание модели, которая могла бы использовать текстовые описания, предоставленные пользователями, для создания художественных изображений, соответствующих этим описаниям. Это позволило бы людям с ограниченными возможностями, которые мешают им эффективно рисовать, и другим людям, которые не очень хорошо рисуют, создавать красивые художественные изображения, изображающие конкретные вещи.

Однако большинство существующих наборов данных для обучения генеративных моделей содержат либо помеченные изображения, либо тексты, а не изображения в сочетании с их текстовыми описаниями. Поэтому исследователям пришлось придумать альтернативный способ обучения своей модели.

«Из-за отсутствия наборов данных с парным текстовым описанием и художественными изображениями трудно напрямую обучить алгоритм, который может создавать искусство на основе ввода текста», — объясняют исследователи в своей статье. «Чтобы решить эту проблему, мы разделили нашу задачу на три этапа».

Во-первых, исследователи использовали свою модель DM-GAN для создания реалистичного изображения, представляющего собой текстовое описание. Впоследствии они использовали ResNet, искусственную нейронную сеть с несколькими слоями, чтобы классифицировать изображение, созданное DM-GAN, в одну из жанровых категорий, указанных в наборе данных WikiArt.

Набор данных WikiArt, который часто использовался для обучения методам глубокого обучения, содержит более 40 000 художественных картин, созданных 195 художниками. После того, как изображение, созданное DM-GAN, было отнесено к одной из жанровых категорий, указанных WikiArt, модель может выбрать стиль рисования, совместимый с этой жанровой категорией, и перенести его на сгенерированное изображение с помощью нейронной сети художественной стилизации.

Исследователи оценили свой многоосновной метод в серии первоначальных пробных экспериментов. Хотя он достиг довольно хороших результатов, они хотели бы улучшить его производительность в своих следующих работах.

«В целом мы получаем приемлемые результаты для нескольких комбинаций ввода текста и желаемых стилей», — пишут исследователи в своей статье. «Однако есть еще много областей нашего решения, которые можно улучшить. В частности, мы планируем добавить модуль распознавания речи, чтобы люди с ограниченными возможностями рук могли вводить данные голосом, а не печатать».

В будущем техника, разработанная Тианом и Франкитти, потенциально может быть интегрирована в графические и графические приложения, что позволит всем людям создавать высококачественные художественные изображения, независимо от их способностей и художественных талантов. Код модели, разработанной исследователями, находится в открытом доступе на GitHub . В своих следующих исследованиях команда также планирует сравнить его производительность с другими методами генерации изображений и улучшить производительность отдельных компонентов.