DeepMind разрабатывает SAFE, приложение на основе искусственного интеллекта, которое может проверять факты

Прочитано: 128 раз(а)


Команда специалистов по искусственному интеллекту из Google DeepMind разработала систему на основе искусственного интеллекта под названием SAFE, которую можно использовать для проверки фактов результатов LLM, таких как ChatGPT. Группа опубликовала документ , описывающий новую систему искусственного интеллекта и то, насколько хорошо она работает на сервере препринтов arXiv.

Большие языковые модели, такие как ChatGPT, часто упоминались в новостях за последние пару лет — они могут писать статьи, давать ответы на вопросы и даже решать математические задачи. Но у них есть одна серьезная проблема: точность. Каждый результат, полученный LLM, должен проверяться вручную, чтобы убедиться в правильности результатов, а этот атрибут значительно снижает их ценность.

В рамках этой новой работы исследователи из DeepMind создали приложение искусственного интеллекта, которое может проверять результаты ответов, полученных от студентов-магистров, и автоматически указывать на неточности.

Одним из основных способов проверки фактов пользователями LLM является изучение ответов ИИ с помощью поисковой системы, такой как Google, чтобы найти подходящие источники для проверки. Команда DeepMind применила тот же подход. Они создали LLM, который разбивает утверждения или факты в ответе, предоставленном исходным LLM, а затем использовали поиск Google, чтобы найти сайты, которые можно использовать для проверки, а затем сравнили два ответа, чтобы определить точность. Они называют свою новую систему Search-Augmented Factuality Evaluator (SAFE).

Чтобы протестировать свою систему, исследовательская группа использовала ее для проверки примерно 16 000 фактов, содержащихся в ответах, данных несколькими магистратурами. Они сравнили свои результаты с результатами людей (краудсорсинговых) проверок фактов и обнаружили, что SAFE соответствует выводам людей в 72% случаев. При проверке разногласий между SAFE и проверяющими-людьми исследователи обнаружили, что SAFE был правильным в 76% случаев.

Команда DeepMind сделала код SAFE доступным для использования всем, кто решит воспользоваться его возможностями, разместив его на сайте с открытым исходным кодом GitHub.

DeepMind разрабатывает SAFE, приложение на основе искусственного интеллекта, которое может проверять факты



Новости партнеров