Как обучаются нейронные сети?

Нейронные сети способствовали прорывам в области искусственного интеллекта, включая большие языковые модели, которые сейчас используются в широком спектре приложений, от финансов до управления персоналом и здравоохранения. Но эти сети остаются черным ящиком, внутреннюю работу которого инженеры и ученые пытаются понять.

Теперь команда, возглавляемая специалистами по обработке данных и информатике из Калифорнийского университета в Сан-Диего, дала нейронным сетям аналог рентгеновского снимка, чтобы выяснить, как они на самом деле обучаются.

Исследователи обнаружили, что формула, используемая в статистическом анализе, обеспечивает упрощенное математическое описание того, как нейронные сети, такие как GPT-2, предшественник ChatGPT, изучают соответствующие закономерности в данных, известные как функции. Эта формула также объясняет, как нейронные сети используют эти соответствующие шаблоны для прогнозирования.

«Мы пытаемся понять нейронные сети, исходя из первых принципов», — сказал Дэниел Биглхоул, доктор философии. студент факультета компьютерных наук и инженерии Калифорнийского университета в Сан-Диего и соавтор исследования. «С помощью нашей формулы можно просто интерпретировать, какие функции сеть использует для прогнозирования».

Команда представила свои выводы в журнале Science.

Почему это имеет значение? Инструменты на базе искусственного интеллекта теперь широко распространены в повседневной жизни. Банки используют их для одобрения кредитов. Больницы используют их для анализа медицинских данных, таких как рентгеновские снимки и МРТ. Компании используют их для проверки кандидатов на работу. Но в настоящее время трудно понять механизм, который нейронные сети используют для принятия решений, и предвзятости в обучающих данных, которые могут на это повлиять.

«Если вы не понимаете, как нейронные сети обучаются, очень сложно установить, дают ли нейронные сети надежные, точные и соответствующие ответы», — сказал Михаил Белкин, автор-корреспондент статьи и профессор Института науки о данных Халичоглу Калифорнийского университета в Сан-Диего. . «Это особенно важно, учитывая быстрый рост технологий машинного обучения и нейронных сетей в последнее время».

Исследование является частью более масштабных усилий исследовательской группы Белкина по разработке математической теории , объясняющей, как работают нейронные сети. «Технологии значительно опередили теорию», — сказал он. «Нам нужно наверстать упущенное».

Команда также показала, что статистическая формула, которую они использовали для понимания того, как обучаются нейронные сети, известная как внешний продукт среднего градиента (AGOP), может быть применена для повышения производительности и эффективности в других типах архитектур машинного обучения, которые не включают нейронные сети.

«Если мы поймем основные механизмы, которые управляют нейронными сетями, мы сможем создавать модели машинного обучения, которые будут более простыми, эффективными и более интерпретируемыми», — сказал Белкин. «Мы надеемся, что это поможет демократизировать ИИ».

Для функционирования систем машинного обучения, которые предполагает Белкин, потребуется меньше вычислительной мощности и, следовательно, меньше энергии от сети. Эти системы также будут менее сложными и их будет легче понять.

Проиллюстрируем новые выводы примером

(Искусственные) нейронные сети — это вычислительные инструменты для изучения взаимосвязей между характеристиками данных (т. е. идентификации конкретных объектов или лиц на изображении). Один из примеров задачи — определить, в новом изображении человек в очках или нет. Машинное обучение решает эту проблему, предоставляя нейронной сети множество примеров (обучающих) изображений, помеченных как изображения «человека в очках» или «человека без очков».

Нейронная сеть изучает взаимосвязь между изображениями и их метками и извлекает шаблоны данных или признаки, на которых ей необходимо сосредоточиться для принятия решения. Одна из причин, по которой системы искусственного интеллекта считаются черным ящиком, заключается в том, что часто трудно математически описать, какие критерии на самом деле используют системы для своих прогнозов, включая потенциальные отклонения. Новая работа дает простое математическое объяснение того, как системы изучают эти функции.

Характеристики — это соответствующие закономерности в данных. В приведенном выше примере имеется широкий спектр функций, которые нейронные сети изучают, а затем используют, чтобы определить, носит ли человек на фотографии очки или нет.

Для этой задачи необходимо обратить внимание на одну особенность — верхнюю часть лица. Другими особенностями могут быть область глаз или носа, где часто лежат очки. Сеть выборочно обращает внимание на особенности, которые, по ее мнению, являются релевантными, а затем отбрасывает другие части изображения, такие как нижняя часть лица, волосы и так далее.

Обучение функциям — это способность распознавать соответствующие закономерности в данных, а затем использовать эти закономерности для прогнозирования. В примере с очками сеть учится обращать внимание на верхнюю часть лица. В новой статье Science исследователи определили статистическую формулу, которая описывает, как нейронные сети изучают функции.

Альтернативные архитектуры нейронных сетей. Далее исследователи показали, что внедрение этой формулы в вычислительные системы, которые не полагаются на нейронные сети , позволяет этим системам учиться быстрее и эффективнее.

«Как мне игнорировать то, что не нужно? Люди в этом хороши», — сказал Белкин. «Машины делают то же самое. Например, модели большого языка реализуют это «избирательное внимание», и мы не знаем, как они это делают. В нашей научной статье мы представляем механизм, объясняющий, по крайней мере, часть того, как нейронные сети «избирательно обращают внимание».