Разрабатывается инструмент для обнаружения разжигания ненависти на языках Юго-Восточной Азии

Прочитано: 29 раз(а)


Интернет, и особенно социальные сети, выросли в геометрической прогрессии за последние десятилетия. Природа социальных сетей позволяет любому человеку выходить в сеть и создавать контент, который он считает интересным, независимо от того, уместно это или нет. Одной из форм ненадлежащего контента является язык вражды — оскорбительная или угрожающая речь, направленная против определенных людей на основе их этнической принадлежности, религии, сексуальной ориентации и т. п.

Модели обнаружения языка вражды представляют собой вычислительные системы, которые могут идентифицировать и классифицировать онлайн-комментарии как язык вражды .

«Эти модели имеют решающее значение для модерирования онлайн-контента и смягчения распространения вредоносной речи, особенно в социальных сетях», — сказал доцент Рой Ли из Сингапурского университета технологий и дизайна (SUTD). Оценка эффективности моделей обнаружения языка вражды важна, но традиционная оценка с использованием отложенных тестовых наборов часто не позволяет должным образом оценить эффективность модели из-за присущей ей предвзятости в наборах данных.

Чтобы преодолеть это ограничение, были введены HateCheck и Multilingual HateCheck (MHC) в качестве функциональных тестов, которые охватывают сложность и разнообразие языка вражды, моделируя реальные сценарии. В своей исследовательской работе под названием «SGHateCheck: функциональные тесты для обнаружения языка вражды на языках с низким уровнем ресурсов Сингапура» доцент Ли и его команда опираются на фреймворки HateCheck и MHC для разработки SGHateCheck, инструмента на основе искусственного интеллекта (ИИ), который может различать комментарии с ненавистью и без ненависти в специфическом контексте Сингапура и Юго-Восточной Азии.

Работа опубликована в материалах 8-го семинара по злоупотреблениям и вреду в Интернете (WOAH 2024).

Необходимо было создать инструмент оценки специально для лингвистического и культурного контекста региона. Это связано с тем, что текущие модели обнаружения языка вражды и наборы данных в основном основаны на западных контекстах, которые неточно отражают конкретную социальную динамику и проблемы в Юго-Восточной Азии.

«SGHateCheck нацелен на устранение этих пробелов путем предоставления функциональных тестов, адаптированных к конкретным потребностям региона, что гарантирует более точное и учитывающее культурные особенности обнаружение языка вражды», — сказал доцент Ли.

В отличие от HateCheck и MHC, SGHateCheck использует большие языковые модели (LLM) для перевода и перефразирования тестовых случаев на четыре основных языка Сингапура — английский, мандаринский, тамильский и малайский. Затем носители языка аннотации дорабатывают эти тестовые случаи, чтобы обеспечить культурную релевантность и точность. Конечный результат — более 11 000 тестовых случаев, тщательно аннотированных как оскорбительные или неоскорбительные, что позволяет использовать более тонкую платформу для оценки моделей обнаружения языка вражды.

Более того, хотя MHC включает много языков, он не имеет такого же уровня региональной специфичности, как SGHateCheck. Полный список функциональных тестов, адаптированных к языковым особенностям региона (например, синглиш) в сочетании с экспертным руководством гарантирует, что тесты SGHateCheck будут полезными и релевантными.

«Такой региональный фокус позволяет SGHateCheck более точно фиксировать и оценивать проявления языка вражды, которые не могут быть адекватно учтены в более широких, более общих рамках», — подчеркнул доцент Ли.

Команда также обнаружила, что LLM, обученные на одноязычных наборах данных, часто склоняются к не оскорбительным классификациям. С другой стороны, LLM, обученные на многоязычных наборах данных, демонстрируют более сбалансированную производительность и могут точнее определять язык вражды на разных языках из-за их воздействия на более широкий спектр языковых выражений и культурных контекстов. Это подчеркивает важность включения культурно разнообразных и многоязычных данных обучения для приложений в многоязычных регионах.

SGHateCheck был специально разработан для решения реальной проблемы в Юго-Восточной Азии. Он готов сыграть важную роль, улучшая обнаружение и модерацию языка ненависти в онлайн-средах в этих регионах, помогая формировать более уважительное и инклюзивное онлайн-пространство. Социальные сети, онлайн-форумы и платформы сообществ, а также новостные и медийные веб-сайты — это лишь некоторые из многих областей, где внедрение SGHateCheck будет ценным.

К счастью, новое приложение для модерации контента, использующее SGHateCheck, уже есть в списке будущих планов доцента Ли. Он также намерен расширить SGHateCheck, включив в него другие языки Юго-Восточной Азии, такие как тайский и вьетнамский.

SGHateCheck демонстрирует, как идеал SUTD по интеграции передовых технологических достижений с продуманными принципами дизайна может привести к эффективным решениям в реальном мире. Благодаря использованию дизайна, ИИ и технологий, SGHateCheck был разработан для анализа местных языков и социальной динамики с целью удовлетворения конкретной общественной потребности.

«Исследование, сосредоточенное на создании инструмента обнаружения языка вражды, который не только технологически сложен, но и учитывает культурные особенности, подчеркивает важность подхода, ориентированного на человека, в технологических исследованиях и разработках», — сказал доцент Ли.

Государственное регулирование может эффективно сдерживать опасности социальных сетей



Новости партнеров