Рассказ Борхеса, написанный 83 года назад, предвещает мрачное будущее Интернета

Как будет развиваться Интернет в ближайшие десятилетия?

Писатели-фантасты исследовали некоторые возможности.

В своем романе 2019 года « Падение » писатель-фантаст Нил Стивенсон представил себе недалекое будущее, в котором интернет все еще существует. Но он настолько загрязнен дезинформацией, непроверенной информацией и рекламой, что стал практически непригоден для использования.

Персонажи романа Стивенсона решают эту проблему, подписываясь на «редактированные потоки» — отобранные человеком новости и информацию, которые можно считать заслуживающими доверия.

Недостатком является то, что позволить себе такие индивидуальные услуги могут только богатые люди, в результате чего большая часть человечества потребляет некачественный, непроверенный онлайн-контент.

В какой-то степени это уже произошло: многие новостные организации, такие как The New York Times и The Wall Street Journal, разместили свой курируемый контент за платным доступом. Тем временем дезинформация процветает на платформах социальных сетей, таких как X и TikTok.

Достижения Стивенсона как предсказателя впечатляют: он предсказал метавселенную в своем романе 1992 года « Лавина », а ключевым элементом сюжета его « Алмазного века », выпущенного в 1995 году, является интерактивный букварь, который во многом похож на чат-бот .

На первый взгляд, чат-боты, похоже, предлагают решение эпидемии дезинформации. Распространяя фактический контент, чат-боты могли бы предоставлять альтернативные источники высококачественной информации, которые не оцеплены платными экранами.

Однако по иронии судьбы результаты работы этих чат-ботов могут представлять наибольшую опасность для будущего Интернета — на что десятилетиями ранее намекал аргентинский писатель Хорхе Луис Борхес.

Рост популярности чат-ботов

Сегодня значительная часть Интернета по-прежнему состоит из фактического и якобы правдивого контента, например, статей и книг, которые были рецензированы, проверены фактами или проверены каким-либо иным образом.

Разработчики больших языковых моделей (LLM) — движков, лежащих в основе таких ботов, как ChatGPT, Copilot и Gemini, — воспользовались этим ресурсом.

Однако, чтобы творить чудеса, эти модели должны поглощать огромные объемы высококачественного текста для целей обучения. Огромное количество словесной шелухи уже было выцарапано из онлайн-источников и скормлено начинающим LLM.

Проблема в том, что сеть, какой бы огромной она ни была, является конечным ресурсом. Высококачественный текст, который еще не был вырыт, становится дефицитным , что приводит к тому, что The New York Times назвала « зарождающимся кризисом контента ».

Это заставило такие компании, как OpenAI, заключать соглашения с издателями, чтобы получить еще больше сырья для своих прожорливых ботов. Но, согласно одному прогнозу, нехватка дополнительных высококачественных данных для обучения может ударить уже в 2026 году.

Поскольку результаты работы чат-ботов попадают в сеть, эти тексты второго поколения, содержащие выдуманную информацию, называемую « галлюцинациями », а также откровенные ошибки, такие как предложения нанести клей на пиццу, еще больше загрязняют Интернет.

А если чат-бот общается с неподходящими людьми в сети, он может перенять их отталкивающие взгляды. Microsoft убедилась в этом на собственном горьком опыте в 2016 году, когда ей пришлось отключить Tay , бота, который начал повторять расистский и сексистский контент .

Со временем все эти проблемы могут сделать онлайн-контент еще менее заслуживающим доверия и менее полезным, чем он есть сегодня. Кроме того, LLM, которые питаются низкокалорийной диетой, могут производить еще более проблемный продукт, который также попадает в сеть.

Бесконечная — и бесполезная — библиотека

Нетрудно представить себе цикл обратной связи, который приводит к непрерывному процессу деградации, поскольку боты питаются собственными несовершенными результатами.

В статье, опубликованной в журнале Nature в июле 2024 года , были исследованы последствия обучения моделей ИИ на рекурсивно сгенерированных данных. В ней показано, что «необратимые дефекты» могут привести к « коллапсу модели » для систем, обученных таким образом, — подобно тому, как копия изображения и копия этой копии, и копия этой копии потеряют точность исходного изображения.

Насколько все может быть плохо?

Рассмотрим рассказ Борхеса 1941 года « Вавилонская библиотека ». За пятьдесят лет до того, как ученый-компьютерщик Тим Бернерс-Ли создал архитектуру для Интернета, Борхес уже придумал аналоговый эквивалент.

В своем рассказе в 3000 слов писатель представляет мир, состоящий из огромного и, возможно, бесконечного числа шестиугольных комнат. Книжные полки в каждой комнате содержат однородные тома, которые, как интуитивно чувствуют ее обитатели, должны содержать все возможные перестановки букв в их алфавите.

Поначалу это осознание вызывает радость: по определению должны существовать книги, подробно описывающие будущее человечества и смысл жизни.

Жители ищут такие книги, но обнаруживают, что подавляющее большинство из них не содержат ничего, кроме бессмысленных комбинаций букв. Истина где-то там, но также и вся мыслимая ложь. И все это заложено в невообразимо большом количестве тарабарщины.

Даже после столетий поисков найдено лишь несколько значимых фрагментов. И даже тогда нет способа определить, являются ли эти связные тексты правдой или ложью. Надежда превращается в отчаяние.

Станет ли сеть настолько загрязненной, что только богатые смогут позволить себе точную и надежную информацию? Или бесконечное количество чат-ботов будет производить столько испорченной лексики, что поиск точной информации в сети станет похож на поиск иголки в стоге сена?

Интернет часто описывается как одно из величайших достижений человечества. Но, как и любой другой ресурс, важно серьезно задуматься о том, как он поддерживается и управляется, чтобы не столкнуться с антиутопическим видением, созданным Борхесом.