Федеральное финансирование когнитивных исследований в конце 1970-х и начале 1980-х годов неожиданно привело к значительным достижениям в области искусственного интеллекта. Это исследование изменило наше понимание человеческого познания посредством вычислительных моделей, а также заложило основу для систем глубокого обучения, лежащих в основе сегодняшней технологии ИИ.
Когда федеральные агентства выдают исследовательский грант, они никогда не знают, принесут ли их инвестиции пользу обществу. Это было почти наверняка верно в конце 1970-х и начале 1980-х годов , когда Национальный научный фонд и Управление военно-морских исследований финансировали проекты Джеймса «Джея» Макклелланда, Дэвида Рамельхарта и Джеффри Хинтона по моделированию когнитивных способностей человека.
Однако эти инвестиции привели к каскаду научно-исследовательских достижений: модель нейронной сети , описывающая то, как люди воспринимают буквы и слова; два тома, опубликованные в 1986 году, описывающие теорию группы о том, как нейронные сети в нашем мозге функционируют как параллельные распределенные системы обработки; и основополагающая статья в журнале Nature, написанная Румельхартом, Хинтоном и студентом по имени Рональд Дж. Уильямс, демонстрирующая мощь так называемого алгоритма обратного распространения — способа обучения моделей нейронных сетей обучению на своих ошибках.
И это исследование, в свою очередь, породило большую часть современного ИИ. «Сегодня алгоритм обратного распространения формирует основу для всех систем глубокого обучения, которые были разработаны с тех пор, и практически для всех систем ИИ, которые стали двигателями современной технологической индустрии», — говорит Макклелланд, профессор общественных наук имени Люси Стерн в Стэнфордской школе гуманитарных и естественных наук и директор Центра разума, мозга, вычислений и технологий в Институте нейронаук У Цая при Стэнфорде.
Этот результат принес троице премию «Золотой гусь» 2024 года в знак признания влияния их фундаментальных научных исследований на мир.
Макклелланд, как и NSF и ONR, никогда не ожидал такого результата. Как когнитивный ученый, «я никогда не думал о создании ИИ», — говорит он. Но теперь прогресс в области ИИ замкнулся в круге. «Я черпаю вдохновение из того, что было изучено в области ИИ и глубокого обучения, чтобы думать о человеческом разуме, а также задаваться вопросом, чему разум и мозг должны научить ИИ».
От восприятия букв до нейронных сетей
В 1970-х годах, когда Макклелланд и Румельхарт начали сотрудничать, их идеи о том, как работает мозг, расходились с общепринятыми. Такие исследователи, как Ноам Хомский и Джерри Фодор из Массачусетского технологического института, считали, что обработка языка — это изначально символический процесс, который включает в себя манипулирование организованными расположениями символов в соответствии с четкими правилами.
У Макклеланда была другая точка зрения. Имея опыт работы в области сенсорной нейрофизиологии и обучения животных, он не мог примирить абстракции, о которых говорили такие люди, как Хомский и Фодор, с тем, что он видел в экспериментах на животных. Например, эксперименты, в которых измерялись отдельные нейроны в коре головного мозга кошки, реагирующие на отрезки линий, показали, что восприятие, по-видимому, не подчиняется четким правилам.
«Это непрерывно и не происходит дискретными шагами. И это чувствительно к контексту», — говорит он. Макклелланд хотел построить модель, которая бы учитывала эту чувствительность.
Между тем, в 1977 году Румельхарт опубликовал статью, в которой предположил, что всякий раз, когда мы пытаемся понять букву, слово, фразу или значение слова в предложении, мы используем всю доступную информацию одновременно, чтобы ограничить проблему. Опять же: контекст имеет значение.
После того, как Макклелланд прочитал статью Румельхарта, они встретились и вскоре поняли, что могут формализовать свои идеи в модели вычислительной нейронной сети — наборе многоуровневых простых вычислительных элементов (иногда называемых «нейронами»), которые получают входные данные друг от друга (т. е. учитывают контекст) и соответствующим образом обновляют свои состояния.
«Мы хотели разработать модель нейронной сети, которая могла бы уловить некоторые особенности того, как мозг воспринимает буквы в разных контекстах», — говорит Макклелланд. Например, мы распознаем буквы быстрее, когда они находятся в слове, чем когда они находятся в строке случайных букв; и мы можем интуитивно определить, каким, скорее всего, будет слово, даже если часть его скрыта, искажена или замаскирована, говорит он.
Их первоначальная модель дала результаты, схожие с теми, которые наблюдались в языковых экспериментах с людьми — основной целью Макклелланда. Это предполагало, что модели нейронных сетей, которые являются системами параллельной обработки, являются подходящими моделями человеческого познания.
Но первоначальная модель команды рассматривала буквы и слова как дискретные единицы («нейроны») со связями между ними. Когда Хинтон присоединился к команде в начале 1980-х годов, он предложил команде отказаться от идеи, что каждая единица, или нейрон, представляет собой букву, слово или какой-либо другой символ, узнаваемый или значимый для человека.
Вместо этого он предложил рассматривать символическое представление буквы, слова или другого символа как существующее только в объединенной активности многих нейронов в модельной сети. «Параллельная распределенная обработка», двухтомная книга, опубликованная группой в 1986 году, изложила эти теории.
Затем последовал решающий момент: алгоритм обратного распространения ошибки, представленный Рамельхартом, Хинтоном и Уильямсом в журнале Nature также в 1986 году.
До этого возможности обучения моделей нейронных сетей были довольно ограниченными: ошибки корректировались только в конечном выходном слое сети, что ограничивало то, насколько эффективно опыт мог формировать производительность модели. Чтобы преодолеть это ограничение, Хинтон предложил Румельхарту установить минимизацию ошибки как конкретную цель или «целевую функцию» и вывести процедуру оптимизации сети для достижения этой цели.
Из этого вдохновения Румельхарт нашел способ отправить сигнал ошибки обратно, чтобы научить нейроны на более низких уровнях модели регулировать интенсивность своих связей. И он и Хинтон показали, что такие сети могут научиться выполнять вычисления, которые не могут быть решены с помощью одного слоя модифицируемых связей.
«Примерно в то же время метод обратного распространения разрабатывали и другие, — отмечает Макклелланд, — но именно демонстрация Дэйвом и Джеффом возможностей обратного распространения нашла отклик у людей».
В то время Рамельхарт использовал обратное распространение с сетями, которые имели очень небольшое количество входных единиц и один слой единиц между входами и выходом, говорит Макклелланд. Напротив, сегодняшние модели могут иметь тысячи промежуточных слоев нейронов, которые обучаются таким же образом.
Несмотря на элегантность алгоритма обратного распространения, модели нейронных сетей не сразу стали популярными. Действительно, только 25 лет спустя Хинтон и его студенты использовали набор данных ImageNet Фей-Фей Ли — используя компьютеры, которые были на много порядков мощнее компьютеров, имевшихся в распоряжении Румельхарта, — чтобы продемонстрировать впечатляющую способность сверточных нейронных сетей классифицировать изображения. «До этого было очень сложно обучать сети, которые были бы достаточно глубокими или имели бы достаточно обучающих данных», — говорит Макклелланд.
От мозга к ИИ и обратно
Тем временем Макклелланд продолжал использовать нейронные сети для моделирования человеческого познания, последовательно обнаруживая, что эти модели эффективно захватывают данные из человеческих экспериментов. Он по-прежнему очарован тем, как человеческое познание одновременно напоминает и отличается от компьютерных нейронных сетей.
«Нейронные сети в нашем мозге, которые позволяют нам функционировать, говорить и общаться друг с другом с помощью непрерывных предложений, несомненно, являются нейронными сетями, в некотором роде похожими на эти системы искусственного интеллекта».
По его словам, современные языковые модели, использующие распределенные представления и обучаемые с помощью обратного распространения, также достигли человеческой беглости в переводе. «Они могут переводить с одного языка на другой способами, которые никогда не могла бы сделать ни одна символическая система, основанная на правилах».
Кроме того, в отличие от моделей, которые им предшествовали, большие языковые модели, которые опираются на так называемую архитектуру трансформатора, демонстрируют интересную особенность, похожую на мозг: они могут удерживать информацию в контексте по мере поступления новой информации. «Эти модели используют информацию в контексте, как будто она как бы висит в уме — как последнее предложение, которое кто-то вам сказал», — говорит Макклелланд.
И эта разработка вдохновила Макклелланда присоединиться к соавторам Google DeepMind, чтобы исследовать, рассуждают ли модели нейронных сетей, как и люди, точнее, когда у них есть предварительные контекстные знания, по сравнению с тем, когда им дают совершенно абстрактные темы, требующие символической логики.
Например, люди испытывают затруднения с вопросом типа «Если некоторые коровы A являются B, а все B являются C, есть ли какие-либо CA?» Но если сформулировать тот же вопрос в определенном контексте, используя знакомые концепции («Если некоторые коровы являются герефордами и все герефорды являются млекопитающими, являются ли какие-либо млекопитающие коровами?»), они с большей вероятностью дадут правильный ответ.
«Наше исследование показало, что это то же самое, что делают эти модели», — говорит Макклелланд. «Это не чисто логические машины. Люди и модели в равной степени наполняют свое мышление своими предыдущими знаниями и убеждениями». Они также склонны к фактически истинным или широко распространенным выводам, даже если они не следуют из заданных предпосылок, говорит он. Эти результаты были опубликованы в статье 2024 года в PNAS Nexus.
«Это исследование помогает мне убедить других, что мышление людей не столь строго логическое и более основано на интуитивном знании, которое возникает в результате регулирования силы связей в нейронной сети», — говорит он.
Несмотря на эти сходства, Макклелланд отмечает, что есть и различия. Одно из того, что отличает людей от машин, — это наша способность учиться быстро и с небольшим объемом данных. «Этим языковым моделям нужно примерно в 100 000 раз больше данных, чем человеку для изучения языка. Это очень много!» — говорит он. «Поэтому нам интересно понять, как биологический мозг способен учиться с гораздо меньшим объемом данных, чем современные системы искусственного интеллекта».
Алгоритм обратного распространения Румельхарта является частью проблемы: «Вот почему эти системы ИИ такие медленные и требуют так много данных», — говорит он. Нейронные сети имеют почти бесчисленное количество связей, и — по сравнению с людьми — им требуется много дополнительных данных, чтобы определить, какие связи наиболее важны.
Например, если большая языковая модель допускает ошибку в предсказании последнего слова в предложении, таком как «Джон любит кофе со сливками и медом», она может научиться делать слово «сахар» менее вероятным в целом, вместо того чтобы усвоить, что необычный вкус есть только у Джона.
«Все эти связи немного изменяются, чтобы попытаться уменьшить ошибку, но чтобы выяснить, какие из них важны, нужно включить много обучающих предложений, в которых сохраняется общее предпочтение сахара, а это неэффективно», — говорит Макклелланд.
Это также не то, как работает мозг. «Обратное распространение было прекрасным решением вычислительной проблемы», — говорит Макклелланд. «Но никто никогда не думал, что оно точно отражает, как работает мозг». При обратном распространении сеть активируется в одном направлении, а ошибки распространяются обратно по той же сети, говорит Макклелланд.
Напротив, в мозге сама активация является двунаправленной, и многие различные части мозга взаимодействуют, включая несколько органов чувств, воспринимающих мир одновременно, чтобы обеспечить интегрированное восприятие мира.
Хинтон прекрасно понимал, что обратное распространение не может охватить то, как работает мозг, и он продолжил разрабатывать несколько других алгоритмов, которые гораздо ближе к биологически правдоподобным, говорит Макклелланд. И теперь Макклелланд берется за ту же задачу, но другим способом: возвращаясь к исследованиям активации нейронов у животных и людей.
«Я воодушевился идеей поиска способов понять, как наш мозг так эффективно выбирает нужные связи для настройки», — говорит он.