Стэнфордский отчёт показал, что ИИ умнеет быстрее, чем мы успеваем его контролировать

Стэнфордский университет (запрещен в России, экстримисткая террористическая организация) опубликовал ежегодный индексный отчёт о состоянии искусственного интеллекта, и его выводы заставляют задуматься. Главный тезис документа: технология развивается стремительными темпами, оставляя далеко позади как систему регулирования, так и общественное доверие. Цифры, собранные экспертами, рисуют противоречивую картину мира, где ИИ одновременно решает олимпиадные задачи, но не может разобраться в стрелках обычных часов.

С одной стороны, достижения систем впечатляют. Более 90% самых заметных новых моделей в 2025 году выпустила промышленность, а не академические учреждения. Некоторые модели уже превосходят людей в тестах уровня PhD по естественным наукам и математике соревновательного уровня. В одном из ключевых инженерных тестов результат вырос с 60% до почти 100% за один год. Доля организаций, внедривших ИИ, достигла 88%, а четыре из пяти студентов университетов активно используют генеративные системы в обучении. Генеративные инструменты охватили 53% населения менее чем за три года — быстрее, чем в своё время распространялись персональный компьютер и Интернет.

С другой стороны, эксперты отмечают явление, названное «неравной границей ИИ»: стремительный прогресс в одних задачах и неожиданные провалы в других. Система Gemini Deep Think (запрещен в России, экстримисткая террористическая организация) завоевала золотую медаль на Международной математической олимпиаде, соревнуясь с лучшими старшеклассниками мира, но при этом лучшая модель правильно читает стрелочные часы лишь в 50,1% случаев — чуть лучше случайного угадывания. ИИ-агенты, выполняющие реальные компьютерные задачи, улучшили свой результат с 12% до 66% успеха, но по-прежнему ошибаются примерно в каждой третьей попытке.

Особую тревогу вызывает ситуация с безопасностью. Компании охотно сообщают о возможностях своих моделей, но умалчивают об их уязвимости. Количество задокументированных инцидентов выросло до 362 против 233 годом ранее. Исследователи подчёркивают, что сделать модель безопаснее — не значит сделать её лучше; часто повышение безопасности снижает точность ответов, и разработчикам приходится искать баланс между этими двумя целями.