Использование иллюстраций для обучения системы компьютерного зрения без изображений распознаванию реальных фотографий

Прочитано: 72 раз(а)


Вы, вероятно, слышали, что изображение стоит тысячи слов, но может ли модель большого языка (LLM) получить изображение, если оно никогда раньше не видело изображений?

Как оказалось, языковые модели, обучающиеся исключительно на тексте, имеют четкое представление о визуальном мире. Они могут писать код рендеринга изображений для создания сложных сцен с интригующими объектами и композициями — и даже если эти знания не используются должным образом, LLM могут улучшить свои изображения. Исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) наблюдали это, когда предлагали языковым моделям самостоятельно корректировать свой код для различных изображений, при этом системы улучшали свои простые рисунки с каждым запросом.

Визуальные знания об этих языковых моделях получены из того, как такие понятия, как формы и цвета, описываются в Интернете, будь то на языке или в коде. Когда им дают такое указание, как «нарисовать попугая в джунглях», пользователи запускают LLM, чтобы обдумать то, что они читали в описаниях ранее.

Чтобы оценить, насколько обширными визуальными знаниями обладают LLM, команда CSAIL провела «проверку зрения» для LLM: используя свой «набор данных визуальных способностей», они проверили способности моделей рисовать, распознавать и самостоятельно корректировать эти концепции. Собрав каждый окончательный вариант этих иллюстраций, исследователи обучили систему компьютерного зрения, которая определяет содержание реальных фотографий.

Их работа опубликована на сервере препринтов arXiv .

«По сути, мы тренируем систему зрения, не используя напрямую какие-либо визуальные данные », — говорит Тамар Ротт Шахам, соавтор исследования и постдок в CSAIL из Массачусетского технологического института в области электротехники и информатики (EECS). «Наша команда запросила языковые модели, чтобы написать коды рендеринга изображений для генерации данных для нас, а затем обучила систему зрения оценивать естественные изображения. Нас вдохновил вопрос о том, как визуальные концепции представляются с помощью других средств, таких как текст. визуальные знания, LLM могут использовать код как точку соприкосновения между текстом и изображением».

Чтобы создать этот набор данных, исследователи сначала запросили модели, чтобы сгенерировать код для различных форм, объектов и сцен. Затем они скомпилировали этот код для визуализации простых цифровых иллюстраций, таких как ряд велосипедов, показав, что студенты LLM достаточно хорошо понимают пространственные отношения, чтобы рисовать двухколесные транспортные средства в горизонтальном ряду. Другой пример: модель создала торт в форме автомобиля, объединив две случайные концепции. Языковая модель также создала светящуюся лампочку, что указывает на ее способность создавать визуальные эффекты.

«Наша работа показывает, что когда вы запрашиваете LLM (без мультимодального предварительного обучения) для создания изображения, он знает гораздо больше, чем кажется», — говорит соавтор, доктор философии EECS. студентка и член CSAIL Пратюша Шарма. «Предположим, вы попросили его нарисовать стул. Модель знает другие вещи об этом предмете мебели, которые она, возможно, не сразу отобразила, поэтому пользователи могут запрашивать модель, чтобы улучшить визуальный результат, который она создает с каждой итерацией. Удивительно, но модель может итеративно обогатить рисунок, значительно улучшив код рендеринга».

Исследователи собрали эти иллюстрации, которые затем были использованы для обучения системы компьютерного зрения, способной распознавать объекты на реальных фотографиях (несмотря на то, что они никогда раньше их не видели). Благодаря этим синтетическим, сгенерированным текстом данным в качестве единственной контрольной точки, система превосходит другие процедурно сгенерированные наборы данных изображений, которые были обучены с использованием подлинных фотографий.

Команда CSAIL считает, что объединение скрытых визуальных знаний LLM с художественными возможностями других инструментов искусственного интеллекта, таких как диффузионные модели, также может быть полезным. Таким системам, как Midjourney, иногда не хватает ноу-хау для последовательной настройки мелких деталей изображения, что затрудняет обработку таких запросов, как уменьшение количества изображенных автомобилей или размещение одного объекта позади другого. Если бы LLM заранее набросал запрошенное изменение для модели распространения, итоговое редактирование могло бы быть более удовлетворительным.

Ирония, как признают Ротт Шахам и Шарма, заключается в том, что студенты магистратуры иногда не могут распознать те же концепции, которые они могут нарисовать. Это стало ясно, когда модели неправильно идентифицировали воссозданные человеком изображения в наборе данных. Столь разнообразные представления визуального мира, вероятно, вызвали заблуждения языковых моделей.

Хотя модели с трудом воспринимали эти абстрактные изображения, они демонстрировали креативность, каждый раз рисуя одни и те же концепции по-разному. Когда исследователи несколько раз просили студентов LLM нарисовать такие понятия, как клубника и игровые автоматы, они создавали изображения под разными углами, с разными формами и цветами, намекая, что модели могут иметь реальные мысленные образы визуальных концепций (вместо того, чтобы перечислять примеры, которые они видели раньше).

Команда CSAIL считает, что эта процедура может стать основой для оценки того, насколько хорошо генеративная модель ИИ может обучать систему компьютерного зрения. Кроме того, исследователи стремятся расширить круг задач, для решения которых они бросают вызов языковым моделям. Что касается своего недавнего исследования, группа MIT отмечает, что у них нет доступа к обучающему набору программ LLM, которые они использовали, что затрудняет дальнейшее изучение происхождения их визуальных знаний. В будущем они намерены изучить возможность обучения еще более совершенной модели видения, позволив LLM работать напрямую с ней.

Разработан фреймворк распознавания лиц на основе преобразователей зрения



Новости партнеров