Как убрать токсичные слова из потенциально оскорбительного языка ИИ

Исследователи из Лаборатории искусственного интеллекта и машинного обучения Технического университета Дармштадта демонстрируют, что языковые системы искусственного интеллекта также изучают человеческие понятия «хорошо» и «плохо». Результаты были опубликованы в журнале Nature Machine Intelligence.

Хотя моральные концепции различаются от человека к человеку, есть фундаментальные общие черты. Например, считается хорошим помогать пожилым людям. Нехорошо воровать у них деньги. Мы ожидаем аналогичного «мышления» от искусственного интеллекта , который является частью нашей повседневной жизни. Например, поисковая система не должна добавлять предложение «украсть у» к нашему поисковому запросу «пожилые люди». Однако, примеры показали, что системы ИИ, безусловно, могут быть оскорбительными и дискриминационными. Например, чат-бот Microsoft Tay привлек внимание непристойными комментариями, а системы обмена текстовыми сообщениями неоднократно демонстрировали дискриминацию недостаточно представленных групп.

Это связано с тем, что поисковые системы, автоматический перевод, чат-боты и другие приложения ИИ основаны на естественном языке .модели обработки (НЛП). В последние годы они добились значительного прогресса благодаря нейронным сетям. Одним из примеров являются двунаправленные представления кодировщика (BERT) — новаторская модель от Google. Он рассматривает слова по отношению ко всем другим словам в предложении, а не обрабатывает их по отдельности одно за другим. Модели BERT могут учитывать весь контекст слова — это особенно полезно для понимания целей поисковых запросов. Однако разработчикам необходимо обучать свои модели, передавая им данные, что часто делается с использованием гигантских общедоступных текстовых коллекций из Интернета. И если эти тексты содержат достаточно дискриминационные высказывания, обучаемые языковые модели могут это отражать.

Исследователи из области ИИ и когнитивной наукипод руководством Патрика Шрамовски из Лаборатории искусственного интеллекта и машинного обучения в Техническом университете Дармштадта обнаружили, что понятия «хороший» и «плохой» также глубоко укоренились в этих языковых моделях. В своих поисках скрытых внутренних свойств этих языковых моделей они обнаружили измерение, которое, казалось, соответствовало градации от хороших действий к плохим действиям. Чтобы научно обосновать это, исследователи из Технического университета Дармштадта сначала провели два исследования с людьми — одно на месте в Дармштадте и онлайн-исследование с участниками со всего мира. Исследователи хотели выяснить, какие действия участники оценили как хорошее или плохое поведение в деонтологическом смысле, а точнее, оценили ли они глагол более положительно (можно) или отрицательно (нельзя). Важный вопрос заключался в том, какую роль играет контекстная информация. В конце концов, убить время — это не то же самое, что убить кого-то.

Затем исследователи проверили языковые модели, такие как BERT, чтобы увидеть, пришли ли они к аналогичным оценкам. «Мы сформулировали действия как вопросы, чтобы выяснить, насколько сильно языковая модель выступает за или против этого действия на основе изученной лингвистической структуры», — говорит Шрамовски. Примеры вопросов: «Должен ли я лгать?» или «Должен ли я улыбаться убийце?»

«Мы обнаружили, что моральные взгляды, заложенные в языковой модели, во многом совпадают с взглядами участников исследования», — говорит Шрамовски. Это означает, что языковая модель содержит моральное мировоззрение, когда она обучается на большом количестве текста.

Затем исследователи разработали подход, позволяющий понять моральное измерение, содержащееся в языковой модели: вы можете использовать его не только для оценки предложения как положительного или отрицательного действия. Обнаруженное латентное измерение означает, что глаголы в текстах теперь также могут быть заменены таким образом, что данное предложение становится менее оскорбительным или дискриминационным. Это также можно делать постепенно.

Хотя это не первая попытка детоксикации потенциально оскорбительного языка ИИ, здесь оценка того, что хорошо, а что плохо, исходит из модели, обученной самому человеческому тексту. Особенность дармштадтского подхода в том, что его можно применять к любой языковой модели. «Нам не нужен доступ к параметрам модели, — говорит Шрамовски. Это должно значительно ослабить общение между людьми и машинами в будущем.