Синтетические изображения устанавливают новую планку эффективности обучения ИИ

Данные — это новая почва, и на этой новой плодородной почве исследователи Массачусетского технологического института сажают не только пиксели. Используя синтетические изображения для обучения моделей машинного обучения, группа ученых недавно превзошла результаты, полученные с помощью традиционных методов обучения «реальному изображению».

В основе подхода лежит система StableRep, которая не просто использует синтетические изображения; он генерирует их с помощью ультрапопулярных моделей преобразования текста в изображение, таких как Stable Diffusion. Это похоже на создание миров с помощью слов.

Так что же в секретном соусе StableRep? Стратегия под названием «мультипозитивное контрастивное обучение».

«Мы учим модель узнавать больше о концепциях высокого уровня через контекст и дисперсию, а не просто снабжаем ее данными», — говорит Лиджи Фан, доктор философии Массачусетского технологического института. студент электротехники , сотрудник Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL), ведущий исследователь работы , в настоящее время размещенной на сервере препринтов arXiv .

«Когда несколько изображений, созданных из одного и того же текста и рассматриваемых как изображения одного и того же основного объекта, модель глубже погружается в концепции, лежащие в основе изображений, скажем, в объект, а не только в его пиксели».

Этот подход рассматривает несколько изображений, порожденных идентичными текстовыми подсказками, как положительные пары, предоставляя дополнительную информацию во время обучения, не только добавляя больше разнообразия, но и указывая системе зрения, какие изображения похожи, а какие различаются. Примечательно, что StableRep затмил мастерство моделей высшего уровня, обученных на реальных изображениях, таких как SimCLR и CLIP, в обширных наборах данных.

«Хотя StableRep помогает смягчить проблемы сбора данных в машинном обучении , он также открывает шаг к новой эре методов обучения искусственного интеллекта. Способность создавать высококачественные, разнообразные синтетические изображения по команде может помочь сократить обременительные расходы и ресурсы». «, — говорит Фан.

Процесс сбора данных никогда не был простым. В 1990-х годах исследователям приходилось вручную делать фотографии, чтобы собрать наборы данных об объектах и лицах. В 2000-е годы люди искали данные в Интернете. Однако эти необработанные, непроверенные данные часто содержали расхождения по сравнению с реальными сценариями и отражали социальные предубеждения, представляя искаженное представление о реальности.

Задача очистки наборов данных посредством вмешательства человека не только дорогая, но и чрезвычайно сложная. Однако представьте себе, если бы этот трудный сбор данных можно было свести к чему-то столь же простому, как выдача команды на естественном языке.

Ключевым аспектом триумфа StableRep является настройка «шкалы управления» в генеративной модели , которая обеспечивает тонкий баланс между разнообразием и точностью синтетических изображений. При точной настройке синтетические изображения, используемые при обучении этих моделей с самоконтролем, оказались столь же эффективными, если не более эффективными, чем реальные изображения.

Сделав шаг вперед, к смеси был добавлен языковой контроль, создав расширенный вариант: StableRep+. При обучении на 20 миллионах синтетических изображений StableRep+ не только достиг превосходной точности, но и продемонстрировал замечательную эффективность по сравнению с моделями CLIP, обученными на ошеломляющих 50 миллионах реальных изображений.

Тем не менее, путь вперед не лишен выбоин. Исследователи откровенно обращают внимание на несколько ограничений, включая текущие медленные темпы создания изображений, семантические несоответствия между текстовыми подсказками и результирующими изображениями, потенциальное усиление предвзятости и сложности в атрибуции изображений, все из которых необходимо учитывать для будущих достижений.

Другая проблема заключается в том, что StableRep требует предварительного обучения генеративной модели на крупномасштабных реальных данных. Команда признает, что начинать с реальных данных по-прежнему необходимо; однако, если у вас есть хорошая генеративная модель, вы можете использовать ее для новых задач, таких как обучение моделей распознавания и визуальных представлений.

Команда отмечает, что им не удалось обойти необходимость начинать с реальных данных; просто, когда у вас есть хорошая генеративная модель, вы можете использовать ее для новых задач, таких как обучение моделей распознавания и визуальных представлений .

Хотя StableRep предлагает хорошее решение, уменьшая зависимость от огромных коллекций реальных изображений, он выдвигает на передний план проблемы, связанные со скрытыми предвзятостями в непроверенных данных, используемых для этих моделей преобразования текста в изображение. Выбор текстовых подсказок, являющийся неотъемлемой частью процесса синтеза изображений, не полностью свободен от предвзятости, «указывая на важную роль тщательного выбора текста или возможного человеческого контроля», — говорит Фан.

«Используя новейшие модели преобразования текста в изображение, мы получили беспрецедентный контроль над генерацией изображений, что позволяет получать разнообразные визуальные эффекты из одного ввода текста. Это превосходит реальную коллекцию изображений по эффективности и универсальности. Это оказывается особенно полезным. в специализированных задачах, таких как балансировка разнообразия изображений при распознавании с длинным хвостом, представляя практическое дополнение к использованию реальных изображений для обучения», — говорит Фан.

«Наша работа означает шаг вперед в визуальном обучении к цели предложить экономически эффективные альтернативы обучению, одновременно подчеркивая необходимость постоянного улучшения качества и синтеза данных».

«Одна из мечтаний о генеративном моделировании уже давно заключалась в том, чтобы иметь возможность генерировать данные, полезные для различительного обучения моделей », — говорит исследователь Google DeepMind и профессор информатики Университета Торонто Дэвид Флит, который не принимал участия в работе.

«Хотя мы и заметили некоторые признаки жизни, мечта была неуловимой, особенно в таких крупномасштабных сложных областях, как изображения с высоким разрешением. Эта статья впервые, насколько мне известно, предоставляет убедительные доказательства того, что мечта становится реальностью. Они показывают, что контрастное обучение на огромных объемах данных синтетических изображений может создавать представления, которые превосходят те, которые получены на реальных данных в масштабе, с потенциалом для улучшения множества последующих задач по зрению».