Создана модель с самоконтролем, которая может обучаться различным эффективным диалоговым представлениям

Методы искусственного интеллекта (ИИ) и машинного обучения оказались очень перспективными для выполнения многочисленных задач, включая те, которые связаны с обработкой и генерацией языка. Модели машинного обучения, связанные с языком, позволили создать системы, которые могут взаимодействовать и общаться с людьми, включая чат-ботов, умных помощников и умных динамиков.

Для решения задач, ориентированных на диалоги, языковые модели должны иметь возможность обучаться высококачественным представлениям диалогов. Это представления, которые обобщают различные идеи, высказанные двумя сторонами, которые беседуют на определенные темы, и о том, как эти диалоги структурированы.

Исследователи из Северо-Западного университета и AWS AI Labs недавно разработали самоконтролируемую модель обучения, которая может изучать эффективные диалоговые представления для различных типов диалогов. Эта модель, представленная в статье, предварительно опубликованной на arXiv, может быть использована для разработки более универсальных и более эффективных диалоговых систем с использованием ограниченного объема обучающих данных.

«Мы представляем встраивание диалоговых предложений (DSE), метод контрастивного обучения с самоконтролем, который изучает эффективные представления диалогов, подходящие для широкого круга диалоговых задач», — Чжихан Чжоу, Дэцзяо Чжан, Вей Сяо, Николас Динволл, Сяофей Ма, Эндрю Арнольд, и Бин Сян написали в своей газете. «DSE учится на диалогах, используя последовательные высказывания одного и того же диалога в качестве положительных пар для контрастного обучения».

DSE, модель обучения с самоконтролем, разработанная Чжоу и его коллегами, черпает вдохновение из предыдущих исследований, посвященных диалоговым моделям. Поскольку диалоги представляют собой, по сути, последовательные предложения или высказывания, которые семантически связаны друг с другом, команда разработала модель, которая изучает представления диалогов путем объединения последовательных высказываний в одном и том же диалоге.

Эти пары используются для обучения модели с помощью подхода, известного как контрастное обучение. Контрастное обучение — это метод обучения с самоконтролем, который использует дополнения входных данных для разработки нескольких похожих представлений данных.

«Несмотря на свою простоту, DSE обеспечивает значительно лучшие возможности представления, чем другие модели представления диалогов и универсальных моделей представления предложений», — объясняют исследователи в своей статье.

Чжоу и его коллеги оценили производительность своей модели в пяти различных диалоговых задачах, каждая из которых фокусировалась на разных семантических аспектах представления диалогов. Затем они сравнили производительность модели с другими существующими подходами, включая модели TOD-BERT и SimCSE.

«Эксперименты с несколькими выстрелами и с нулевыми выстрелами показывают, что DSE значительно превосходит базовые показатели», — пишут исследователи в своей статье. «Например, он достигает среднего повышения производительности на 13% по сравнению с самым сильным базовым уровнем без присмотра в классификации намерений с одним выстрелом на 6 наборах данных».

В первоначальных тестах новая модель для изучения диалоговых представлений показала замечательную производительность. Таким образом, в будущем его можно будет использовать для повышения производительности чат- ботов и других диалоговых систем.

В своей статье Чжоу и его коллеги также описывают ограничения своей модели и потенциальные приложения. Будущие работы могут продолжать совершенствовать свой подход, чтобы преодолеть некоторые из его недостатков.

«Мы считаем, что DSE может служить простой заменой модели представления диалогов (например, текстового кодировщика) для широкого круга диалоговых систем», — добавили исследователи.