Африканские языки для ИИ: проект, собирающий огромный новый набор данных

Прочитано: 146 раз(а)


Инструменты искусственного интеллекта (ИИ), такие как ChatGPT, DeepSeek, Siri или Google Assistant, разработаны на глобальном Севере и обучены английскому, китайскому и европейским языкам. Для сравнения, африканские языки практически отсутствуют в интернете.

Группа африканских специалистов по информатике, лингвистике, языкам и другим специалистам уже два года работает над этой проблемой. Проект African Next Voices недавно опубликовал, как считается, самый большой на сегодняшний день набор данных по африканским языкам для ИИ. Мы расспросили их об их проекте, который включает в себя площадки в Кении , Нигерии и Южной Африке.

Почему язык так важен для ИИ?

Язык — это то, как мы взаимодействуем, просим о помощи и сохраняем смысл в сообществе. Мы используем его для организации сложных мыслей и обмена идеями. Это средство, с помощью которого мы сообщаем ИИ, чего хотим, и оцениваем, понял ли он нас.

Мы наблюдаем рост числа приложений, использующих ИИ, — от образования до здравоохранения и сельского хозяйства. Эти модели обучаются на больших объёмах (в основном) лингвистических данных. Они называются большими языковыми моделями (LLM), но встречаются лишь в нескольких языках мира.

Языки также несут в себе культуру, ценности и местную мудрость. Если ИИ не говорит на наших языках, он не сможет точно понимать наши намерения, а мы не сможем доверять его ответам или проверять их. Короче говоря, без языка ИИ не сможет общаться с нами, а мы — с ним. Поэтому создание ИИ на наших языках — единственный способ для него работать на благо людей.

Если мы ограничим круг языков, подлежащих моделированию, мы рискуем упустить большую часть человеческой культуры, истории и знаний.

Почему отсутствуют африканские языки и каковы последствия для ИИ?

Развитие языка тесно связано с историей народов. Многие из тех, кто пережил колониальный и имперский период, столкнулись с тем, что их собственные языки маргинализировались и не развивались в той же степени, что и языки колонизаторов. Африканские языки не так часто встречаются, в том числе в интернете.

Таким образом, для обучения и оценки надёжных моделей искусственного интеллекта не хватает высококачественных оцифрованных текстов и речи. Этот дефицит — результат десятилетий политики, которая отдаёт предпочтение колониальным языкам в школах, СМИ и правительстве.

Языковые данные — лишь одна из вещей, которых не хватает. Есть ли у нас словари, терминологии, глоссарии? Базовых инструментов мало, и множество других проблем увеличивают стоимость создания наборов данных. К ним относятся клавиатуры африканских языков, шрифты, средства проверки орфографии, токенизаторы (которые разбивают текст на более мелкие фрагменты для понимания языковой моделью), орфографические вариации (различия в написании слов в разных регионах), тональная маркировка и богатое диалектное разнообразие.

В результате ИИ работает плохо, а порой и небезопасно: возникают ошибки перевода, плохая транскрипция и системы, которые едва понимают африканские языки.

На практике это лишает многих африканцев доступа — на их родных языках — к мировым новостям, образовательным материалам, информации о здравоохранении и к преимуществам в плане производительности, которые может обеспечить ИИ.

Если язык отсутствует в данных, его носители не представлены в продукте, и ИИ не может быть для них безопасным, полезным или справедливым. В результате они лишаются необходимых языковых технологий, которые могли бы поддерживать предоставление услуг. Это маргинализирует миллионы людей и увеличивает технологический разрыв.

Какие действия предпринимает ваш проект в связи с этим и каким образом?

Наша главная цель — сбор речевых данных для автоматического распознавания речи (ASR). ASR — важный инструмент для языков, на которых говорят многие. Эта технология преобразует устную речь в письменный текст.

Главная цель нашего проекта — изучить, как собираются данные для распознавания речи (ASR) и какой объём этих данных необходим для создания инструментов распознавания речи (ASR). Мы стремимся поделиться своим опытом в разных географических регионах.

Данные, которые мы собираем, разнообразны по своей природе: это спонтанная и прочитанная речь из разных областей — повседневные разговоры, здравоохранение, финансовая доступность и сельское хозяйство. Мы собираем данные у людей разного возраста, пола и уровня образования.

Каждая запись производится с информированного согласия, за справедливую компенсацию и с чёткими условиями прав на данные. Мы выполняем расшифровку с учётом языковых требований и проводим широкий спектр других технических проверок.

В Кении, через Центр прикладного искусственного интеллекта Maseno, мы собираем голосовые данные для пяти языков. Мы охватываем три основные языковые группы: нилотскую (дхолуо, масаи и календжин), а также кушитскую (сомали) и банту (кикую).

В рамках проекта Data Science Nigeria мы собираем данные на пяти распространённых языках: бамбара, хауса, игбо, нигерийском пиджине и йоруба. Цель набора данных — точно отражать аутентичную языковую лексику в этих сообществах.

В Южной Африке, работая с лабораторией «Data Science for Social Impact» и её сотрудниками, мы записываем данные на семи южноафриканских языках. Цель — отразить богатое языковое разнообразие страны: зулу, коса, сесото, сепеди, сетсвана, ндебеле и тшивенда.

Важно отметить, что эта работа не идёт в изоляции. Мы опираемся на импульс и идеи сети Masakhane Research Foundation , Lelapa AI , Mozilla Common Voice , EqualyzAI и многих других организаций и отдельных лиц, которые являются пионерами в области разработки моделей, данных и инструментов для африканских языков.

Каждый проект усиливает остальные, и вместе они образуют растущую экосистему, призванную сделать африканские языки видимыми и используемыми в эпоху искусственного интеллекта.

Как это можно использовать?

Данные и модели будут полезны для создания субтитров для СМИ на местных языках, голосовых помощников в сельском хозяйстве и здравоохранении, колл-центров и служб поддержки на этих языках. Данные также будут архивироваться для сохранения культурного наследия.

Более крупные, сбалансированные и общедоступные наборы данных по африканским языкам позволят нам объединить текстовые и речевые ресурсы. Модели будут не просто экспериментальными, но и полезными для чат-ботов, образовательных инструментов и предоставления локальных услуг. Появляется возможность выйти за рамки наборов данных и создать экосистемы инструментов (программы проверки орфографии, словари, системы перевода, системы реферирования), которые сделают африканские языки живым присутствием в цифровом пространстве.

Короче говоря, мы объединяем этично собранную, высококачественную речь в масштабе с моделями. Цель — дать людям возможность говорить естественно, быть понятыми точно и использовать искусственный интеллект на тех языках, на которых они живут.

Что будет дальше с проектом?

Этот проект собирал голосовые данные только для определённых языков. А как насчёт остальных языков? Что насчёт других инструментов, таких как машинный перевод или программы проверки грамматики?

Мы продолжим работать с несколькими языками, обеспечивая создание данных и моделей, отражающих особенности использования африканцами своих языков. Мы отдаём приоритет созданию небольших языковых моделей, которые одновременно энергоэффективны и точны для африканского контекста.

Теперь задача состоит в интеграции: заставить все эти части работать вместе, чтобы африканские языки были представлены не только в отдельных демонстрационных версиях, но и на реальных платформах.

Один из уроков этого проекта, как и других подобных, заключается в том, что сбор данных — лишь первый шаг. Важно обеспечить, чтобы данные были бенчмаркинговыми, многоразовыми и связанными с сообществами практиков. Для нас «следующим» шагом является обеспечение того, чтобы разрабатываемые нами бенчмарки ASR можно было согласовать с другими текущими проектами в Африке.

Нам также необходимо обеспечить устойчивое развитие: чтобы студенты, исследователи и новаторы имели постоянный доступ к вычислительным ресурсам (компьютерным ресурсам и вычислительной мощности), учебным материалам и системам лицензирования (например, NOODL или Esethu ). Долгосрочная цель — предоставить выбор: чтобы фермер, учитель или местный бизнес могли использовать ИИ на языках зулу, хауса или кикую, а не только на английском или французском.

Если нам это удастся, встроенный ИИ для африканских языков не просто догонит конкурентов, но и установит новые стандарты инклюзивного и ответственного ИИ во всем мире.

Африканские языки для ИИ: проект, собирающий огромный новый набор данных



Новости партнеров