Проект OpenGPT-X выпускает большую языковую модель

Большая языковая модель исследовательского проекта OpenGPT-X теперь доступна для загрузки на Hugging Face: «Teuken-7B» обучена с нуля на всех 24 официальных языках Европейского Союза и содержит 7 миллиардов параметров.

Исследователи и компании могут использовать эту коммерчески пригодную модель с открытым исходным кодом для собственных приложений искусственного интеллекта. Консорциум OpenGPT-X, возглавляемый Институтами Фраунгофера по интеллектуальному анализу и информационным системам (IAIS) и по интегральным схемам (IIS), разработал модель языка ИИ с открытым исходным кодом, имеющую отчетливо европейскую перспективу.

«В проекте OpenGPT-X мы провели последние два года, исследуя базовые технологии для крупных базовых моделей ИИ и моделей обучения с ведущими отраслевыми и исследовательскими партнерами. Мы рады возможности сделать нашу модель «Teuken-7B» общедоступной, предоставив публичную, основанную на исследованиях альтернативу для использования в академических кругах и промышленности», — говорит профессор Штефан Вробель, директор Fraunhofer IAIS.

«Наша модель продемонстрировала свои возможности на широком спектре языков, и мы надеемся, что как можно больше людей адаптируют и разовьют модель для своей собственной работы и приложений. Таким образом, мы хотим внести свой вклад, как в рамках научного сообщества, так и совместно с компаниями из разных отраслей, в растущий спрос на прозрачные и настраиваемые генеративные решения ИИ».

Teuken-7B в настоящее время является одной из немногих крупных языковых моделей, разработанных с нуля на нескольких языках. Она содержит около 50% неанглийских предварительных данных и была обучена на всех 24 официальных европейских языках. Она доказала свою стабильность и надежность в работе на нескольких языках.

Это обеспечивает дополнительную ценность, особенно для международных компаний и организаций с многоязычными требованиями к коммуникации, продуктам и услугам. Модель с открытым исходным кодом позволяет компаниям и организациям запускать собственные индивидуальные модели в реальных приложениях. Конфиденциальные корпоративные данные могут оставаться в пределах компании.

Помимо обучения модели, команда OpenGPT-X также занималась рядом исследовательских вопросов, таких как, как обучать и эксплуатировать многоязычные языковые модели ИИ более энергоэффективным и экономически эффективным способом. С этой целью проект разработал многоязычный «токенизатор».

Задача токенизатора — разбить слова на отдельные компоненты слов — чем меньше токенов, тем более (энерго-) эффективно и быстро языковая модель может сгенерировать ответ. Разработанный токенизатор приводит к снижению затрат на обучение по сравнению с другими многоязычными токенизаторами, такими как Llama3 или Mistral. Это особенно ценно для европейских языков с более длинными структурами слов, таких как немецкий, финский или венгерский.

Teuken-7B доступен через инфраструктуру Gaia-X. Таким образом, участники экосистемы Gaia-X могут разрабатывать инновационные языковые приложения и переносить их в конкретные сценарии приложений в своих соответствующих доменах. В отличие от существующих облачных решений, Gaia-X представляет собой федеративную экосистему, которая позволяет поставщикам услуг и владельцам данных подключаться. Данные остаются в безопасности у своих владельцев и передаются только при определенных условиях.

«Я рад стать свидетелем сегодняшней публикации Teuken-7B, большой языковой модели на основе Gaia-X, и хотел бы поздравить проект OpenGPT-X с достижением этого важного рубежа.

«Особенностью Teuken-7B является то, что он обеспечивает безопасное использование конфиденциальных корпоративных данных, поскольку стандарты Gaia-X гарантируют хранение и обработку данных в соответствии с самыми строгими европейскими нормами защиты и безопасности данных.

«Эта новая модель и подобные ей инновации укрепляют цифровой суверенитет, конкурентоспособность и устойчивость Германии и Европы», — говорит д-р Франциска Брантнер, парламентский государственный секретарь BMWK.

Профессор Бернхард Грилл, директор Fraunhofer IIS, подчеркивает потенциал модели для приложений, критически важных для безопасности. «С помощью этой независимо разработанной языковой модели партнеры проекта демонстрируют свою способность генерировать собственные большие модели.

«Доступ к большой языковой модели позволяет создавать приложения, которые предлагают гораздо больший контроль над этой технологией без необходимости использования непрозрачных сторонних компонентов, например, в таких критически важных для безопасности областях, как автомобилестроение, робототехника, медицина и финансы. Обучаясь на данных, относящихся к конкретному приложению, и используя архитектуры, специфичные для приложений, компании могут создавать индивидуальные решения на основе ИИ, которым не требуются компоненты «черного ящика».

Генеративный ИИ от сильного консорциума — с европейской перспективой

Важные результаты исследований проекта OpenGPT-X были включены в разработку модели, такие как инструменты и технологии для обработки больших объемов данных, использование мощной европейской инфраструктуры HPC и проведение эффективного обучения модели.

Teuken-7B обучался на суперкомпьютере JUWELS в Forschungszentrum Jülich. Помимо двух институтов Фраунгофера и Forschungszentrum Jülich, партнерами консорциума являются TU Dresden, Немецкий исследовательский центр искусственного интеллекта (DFKI), IONOS, Aleph Alpha, ControlExpert, Westdeutscher Rundfunk (WDR) и Немецкая ассоциация искусственного интеллекта (KI Bundesverband). .

Технология, разработанная в OpenGPT-X, также предоставит партнерам основу для обучения собственных моделей в будущем.

«OpenGPT-X — это пример того, как ресурсы финансируемого государством проекта и совместные усилия широкого консорциума могут предоставить ценную основополагающую технологию — от базовой инфраструктуры до обучения моделей и продуктивных приложений.

«В интересах технологического и информационного суверенитета важно опираться на этот фундамент: мы надеемся, что OpenGPT-X заложит основу для многих последующих видов деятельности», — подчеркивает Даниэль Аббу, управляющий директор Немецкой ассоциации искусственного интеллекта и президент Европейского форума искусственного интеллекта.

Исследовательский проект, запущенный в начале 2022 года, сейчас близится к завершению. Он продлится до 31 марта 2025 года, чтобы можно было провести дальнейшую оптимизацию и оценку моделей.

Путь к использованию Teuken-7B

Заинтересованные разработчики из академических кругов или промышленности могут бесплатно загрузить Teuken-7B с Hugging Face и работать с ним в своей собственной среде разработки. Модель уже оптимизирована для чата с помощью «настройки инструкций». Настройка инструкций используется для адаптации больших языковых моделей, чтобы модель правильно понимала инструкции от пользователей, что важно при использовании моделей на практике, например, в приложении чата.

Teuken-7B доступен бесплатно в двух версиях: одна для исследовательских целей и лицензионная версия «Apache 2.0», которая может использоваться компаниями как в исследовательских, так и в коммерческих целях и интегрироваться в их собственные приложения ИИ. Производительность двух моделей примерно сопоставима, но некоторые наборы данных, используемые для настройки инструкций, исключают коммерческое использование и поэтому не использовались в версии Apache 2.0.