Несмотря на скачки в возможностях, которые продемонстрировали «генеративные» чат-боты, такие как ChatGPT от OpenAI, Bing от Microsoft и Bard от Google, у них все еще есть серьезный недостаток: они все время что-то придумывают.
Недавно исследователи спросили две версии чат-бота с искусственным интеллектом OpenAI ChatGPT, где родился профессор Массачусетского технологического института Томас Лосано-Перес.
Один бот сказал, что Испания, а другой сказал, что Куба. Как только система приказала ботам обсудить ответы, тот, кто сказал, что Испания, быстро извинился и согласился с тем, кто дал правильный ответ, Куба.
Вывод, изложенный в статье, опубликованной группой исследователей из Массачусетского технологического института на прошлой неделе, является последним потенциальным прорывом в том, чтобы помочь чат-ботам прийти к правильному ответу. Исследователи предложили использовать разных чат-ботов для получения нескольких ответов на один и тот же вопрос, а затем позволить им обсуждать друг друга до тех пор, пока не выиграет один ответ. Исследователи обнаружили, что использование этого метода «общества умов» сделало их более реальными.
«Языковые модели обучены предсказывать следующее слово», — сказал Йилун Ду, исследователь из Массачусетского технологического института, ранее работавший научным сотрудником в OpenAI, и один из авторов статьи. «Они не обучены говорить людям, что они не знают, что делают». В результате боты действуют как не по годам развитые люди-угодники, придумывая ответы вместо того, чтобы признать, что они просто не знают.
Креативный подход исследователей — это всего лишь последняя попытка решить одну из самых насущных проблем в бурно развивающейся области ИИ. Несмотря на невероятный скачок в возможностях, который «генеративные» чат-боты, такие как ChatGPT от OpenAI, Bing от Microsoft и Bard от Google, продемонстрировали за последние шесть месяцев, у них все еще есть серьезный фатальный недостаток: они все время что-то придумывают.
Выяснение того, как предотвратить или исправить то, что специалисты называют «галлюцинациями», стало навязчивой идеей многих технических работников, исследователей и скептиков в области ИИ. Эта проблема упоминается в десятках научных статей, размещенных в онлайн-базе данных Arxiv, и руководители крупных технологических компаний, такие как Сундар Пичаи из Google, неоднократно обращались к ней. По мере того, как технология распространяется среди миллионов людей и интегрируется в критически важные области, включая медицину и право, понимание галлюцинаций и поиск способов их смягчения становится еще более важным.
Большинство исследователей согласны с тем, что проблема связана с «большими языковыми моделями», на которых работают боты, из-за того, как они спроектированы. Они предсказывают, что будет наиболее уместно сказать, основываясь на огромном количестве данных, которые они переварили из Интернета, но не имеют возможности понять, что соответствует действительности, а что нет.
Тем не менее, исследователи и компании берутся за решение этой проблемы. Некоторые фирмы используют тренеров-людей, чтобы переписывать ответы ботов и передавать их обратно в машину, чтобы сделать их умнее. Google и Microsoft начали использовать своих ботов, чтобы давать ответы непосредственно в своих поисковых системах, но по-прежнему дважды проверяют ботов с помощью обычных результатов поиска. А ученые всего мира предложили множество умных способов снизить количество ложных ответов, например, предложение Массачусетского технологического института заставить несколько ботов спорить друг с другом.
Стремление решить проблему с галлюцинациями актуально не просто так.
Уже когда Microsoft запустила своего чат-бота Bing, она быстро начала выдвигать ложные обвинения против некоторых своих пользователей, например, говоря немецкому студенту колледжа, что он представляет угрозу для его безопасности. Бот принял альтер-эго и стал называть себя «Сидней». По сути, это был ответ на вопросы студента, основанный на всей научной фантастике, которую он переварил из Интернета о неуправляемых роботах.
В конечном итоге Microsoft пришлось ограничить количество обменов информацией между ботом и человеком, чтобы этого больше не происходило.
В Австралии правительственный чиновник пригрозил подать в суд на OpenAI после того, как ChatGPT заявил, что он был осужден за взяточничество, хотя на самом деле он был информатором по делу о взяточничестве. А на прошлой неделе юрист признался, что использовал ChatGPT для составления юридического заключения после того, как его поймали, потому что дела, которые так уверенно цитирует бот, просто не существовали, как сообщает New York Times.
Даже Google и Microsoft, которые связали свое будущее с ИИ и стремятся интегрировать эту технологию в широкий спектр своих продуктов, пропустили галлюцинации, которые их боты создавали во время ключевых объявлений и демонстраций.
Ничто из этого не мешает компаниям стремительно устремляться в космос. Миллиарды долларов инвестиций идут на разработку более умных и быстрых чат-ботов, и компании начинают предлагать их в качестве замены или помощи людям. Ранее в этом месяце генеральный директор OpenAI Сэм Альтман свидетельствовал в Конгрессе, что ИИ может «нанести значительный вред миру», распространяя дезинформацию и эмоционально манипулируя людьми. Некоторые компании уже заявляют, что хотят заменить работников искусственным интеллектом, и эта технология также создает серьезные проблемы с кибербезопасностью.
Галлюцинации также были задокументированы в службах транскрипции на базе ИИ, добавляющих к записям слова, которые не произносились в реальной жизни. Microsoft и Google, использующие ботов для прямого ответа на поисковые запросы вместо отправки трафика в блоги и новости, могут подорвать бизнес-модель онлайн-издателей и создателей контента, которые работают над созданием достоверной информации для Интернета.
«Никто в этой области еще не решил проблемы с галлюцинациями. У всех моделей есть эта проблема», — сказал Пичаи в апрельском интервью CBS. По его словам, возможно ли вообще решить эту проблему, это «вопрос интенсивных дебатов».
В зависимости от того, как вы смотрите на галлюцинации, они являются как особенностью, так и ошибкой больших языковых моделей. Галлюцинации — это часть того, что позволяет ботам проявлять творческий подход и создавать невиданные ранее истории. В то же время они раскрывают резкие ограничения технологии, подрывая аргумент о том, что чат-боты разумны в том же смысле, что и люди, предполагая, что у них нет внутреннего понимания окружающего мира.
«Здесь нет ничего, что говорило бы модели о том, что все, что она говорит, должно быть на самом деле правильным в мире», — сказал Эсе Камар, старший научный сотрудник Microsoft. Сама модель также обучается на заданном количестве данных, поэтому все, что происходит после завершения обучения, не влияет на ее знания о мире, сказал Камар.
Галлюцинации не новы. Они были неотъемлемой проблемой больших языковых моделей с момента их создания несколько лет назад, но другие проблемы, такие как ИИ, выдающие бессмысленные или повторяющиеся ответы, рассматривались как более серьезные проблемы. Однако после того, как они были в значительной степени решены, галлюцинации стали ключевым направлением для сообщества ИИ.
Потсави Манакул играл с ChatGPT, когда он спросил у него несколько простых фактов о теннисисте Роджере Федерере. Это простой запрос, который человеку легко найти в Google или Википедии за считанные секунды, но бот продолжал давать противоречивые ответы.
«Иногда говорят, что он выигрывал Уимблдон пять раз, иногда говорят, что выигрывал Уимблдон восемь раз», — сказал в интервью Манакул, исследователь искусственного интеллекта из Кембриджского университета и ярый поклонник тенниса. (Правильный ответ — восемь.)
Манакул и группа других исследователей из Кембриджа опубликовали в марте документ, в котором предлагалась система, которую они назвали «SelfCheckGPT», которая задавала бы одному и тому же боту вопрос несколько раз, а затем предлагала бы ему сравнить разные ответы. Если ответы были непротиворечивыми, то, вероятно, факты были правильными, но если они отличались, их можно было пометить как содержащие выдуманную информацию.
Когда людей просят написать стихотворение, они знают, что не обязательно быть фактически правильным. Но когда они спрашивают у них биографические данные о реальном человеке, они автоматически знают, что их ответ должен основываться на реальности. Поскольку чат-боты просто предсказывают, какое слово или идея будет следующей в строке текста, у них еще нет такого контекстуального понимания вопроса.
«У него нет концепции того, должен ли он быть более креативным или менее креативным», — сказал Манакул. Используя свой метод, исследователи показали, что могут исключать фактически неверные ответы и даже ранжировать ответы в зависимости от того, насколько они соответствуют действительности.
По словам Манакула, вероятно, потребуется совершенно новый метод обучения ИИ, которого еще не изобрели. Только построение систем поверх языковой модели может действительно смягчить проблему.
«Поскольку он смешивает информацию из множества вещей, он генерирует что-то, что выглядит правдоподобно», — сказал он. «Но является ли это фактическим или нет, вот в чем вопрос».
По сути, это то, что ведущие компании уже делают. Когда Google генерирует результаты поиска с помощью технологии чат-бота, он также параллельно выполняет обычный поиск, а затем сравнивает, совпадают ли ответ бота и результаты традиционного поиска. Если они этого не сделают, ответ ИИ даже не появится. Компания настроила своего бота, чтобы он стал менее креативным, то есть он не очень хорошо пишет стихи или ведет интересные беседы, но с меньшей вероятностью будет лгать.
По словам пресс-секретаря Google Дженнифер Родстром, ограничив своего поискового робота подтверждением существующих результатов поиска, компания смогла сократить количество галлюцинаций и неточностей. Представитель OpenAI указал на документ, подготовленный компанией, в котором показано, как ее последняя модель GPT4 вызывала меньше галлюцинаций, чем предыдущие версии.
Компании также тратят время и деньги на улучшение своих моделей, проверяя их на реальных людях. Техника под названием «обучение с подкреплением с обратной связью от людей», когда тестировщики вручную улучшают ответы бота, а затем возвращают их в систему для ее улучшения, широко известна тем, что сделала ChatGPT намного лучше, чем чат-боты, которые были до нее. Популярным подходом является подключение чат-ботов к базам данных фактической или более достоверной информации, такой как Википедия, поиск Google или сделанные на заказ коллекции академических статей или деловых документов.
Некоторые ведущие исследователи ИИ говорят, что галлюцинации следует принимать. В конце концов, у людей тоже плохая память, и было показано, что они заполняют пробелы в своих собственных воспоминаниях, не осознавая этого.
«Мы улучшим его, но никогда не избавимся от него», — сказал о проблеме галлюцинаций Джеффри Хинтон, десятилетия исследований которого помогли заложить основу для нынешнего поколения чат-ботов с искусственным интеллектом. Он работал в Google до недавнего времени, когда ушел, чтобы более публично рассказать о своих опасениях, что технология может выйти из-под контроля человека. «Мы всегда будем такими, и они всегда будут такими.