Знаменитый ИИ научился новому трюку: как заниматься химией

Прочитано: 161 раз(а)


Искусственный интеллект изменил способ ведения науки, позволив исследователям анализировать огромные объемы данных, генерируемых современными научными инструментами. Он может найти иголку в миллионе стогов сена информации и, используя глубокое обучение , может учиться на самих данных. ИИ ускоряет прогресс в поиске генов , медицине , разработке лекарств и создании органических соединений.

Глубокое обучение использует алгоритмы, часто нейронные сети, обученные на больших объемах данных, для извлечения информации из новых данных. Он сильно отличается от традиционных вычислений с его пошаговыми инструкциями. Скорее, он учится на данных. Глубокое обучение гораздо менее прозрачно, чем традиционное компьютерное программирование, оставляя важные вопросы — чему научилась система, что она знает?

Как профессор химии , я люблю разрабатывать тесты, в которых есть хотя бы один сложный вопрос, расширяющий знания учащихся и определяющий, могут ли они комбинировать разные идеи и синтезировать новые идеи и концепции. Мы придумали такой вопрос для выдающегося детища защитников ИИ, AlphaFold, которая решила проблему сворачивания белков .

Сворачивание белков

Белки есть во всех живых организмах. Они обеспечивают клетки структурой, катализируют реакции, транспортируют небольшие молекулы, переваривают пищу и делают многое другое. Они состоят из длинных цепочек аминокислот, как бусинки на нитке. Но чтобы белок выполнял свою работу в клетке, он должен скручиваться и изгибаться в сложную трехмерную структуру . Этот процесс называется сворачиванием белка. Неправильно свернутые белки могут привести к заболеванию.

В своей речи при вручении Нобелевской премии по химии в 1972 году Кристиан Анфинсен предположил, что трехмерную структуру белка можно рассчитать на основе последовательности его строительных блоков , аминокислот.

Точно так же, как порядок и интервалы между буквами в этой статье придают ей смысл и смысл, так и порядок аминокислот определяет идентичность и форму белка, что приводит к его функции.

Из-за присущей аминокислотным строительным блокам гибкости типичный белок может принимать примерно 10 в степени 300 различных форм . Это огромное число, больше, чем количество атомов во Вселенной . Тем не менее, в течение миллисекунды каждый белок в организме сворачивается в свою особую форму — самое низкое энергетическое расположение всех химических связей, составляющих белок. Замените всего одну аминокислоту из сотен аминокислот, обычно встречающихся в белке, и он может неправильно сложиться и перестать работать.

АльфаФолд

В течение 50 лет ученые-компьютерщики безуспешно пытались решить проблему сворачивания белков. Затем в 2016 году DeepMind , дочерняя компания Google Alphabet, занимающаяся искусственным интеллектом, запустила свою программу AlphaFold . В качестве обучающего набора он использовал банк данных белков , который содержит экспериментально определенные структуры более чем 150 000 белков.

Знаменитый ИИ научился новому трюку: как заниматься химией

Менее чем за пять лет AlphaFold преодолела проблему фолдинга белков — по крайней мере, самую полезную ее часть, а именно определение структуры белка по его аминокислотной последовательности . AlphaFold не объясняет, как белки сворачиваются так быстро и точно. Это была крупная победа ИИ, потому что он не только принес огромный научный престиж, но и стал крупным научным достижением, которое могло повлиять на жизнь каждого.

Сегодня, благодаря таким программам, как AlphaFold2 и RoseTTAFold , такие исследователи, как я, могут определять трехмерную структуру белков по последовательности аминокислот, из которых состоит белок, — бесплатно — за час или два. До AlphaFold2 нам приходилось кристаллизовать белки и определять структуры с помощью рентгеновской кристаллографии , процесс, который занимал месяцы и стоил десятки тысяч долларов за структуру.

Теперь у нас также есть доступ к базе данных AlphaFold Protein Structure Database , где Deepmind хранит трехмерные структуры почти всех белков, обнаруженных у людей, мышей и более чем 20 других видов. На сегодняшний день они решили более миллиона структур и планируют добавить еще 100 миллионов структур только в этом году. Знания о белках резко возросли. Структура половины всех известных белков, вероятно, будет задокументирована к концу 2022 года, среди них много новых уникальных структур, связанных с новыми полезными функциями.

Думать как химик

AlphaFold2 не был разработан для предсказания того, как белки будут взаимодействовать друг с другом, однако он смог смоделировать, как отдельные белки объединяются в большие сложные единицы, состоящие из нескольких белков . У нас был сложный вопрос для AlphaFold: научил ли его структурный тренировочный набор чему-то химии? Может ли он сказать, будут ли аминокислоты реагировать друг с другом — редкое, но важное явление?

Я вычислительный химик, интересующийся флуоресцентными белками. Это белки, обнаруженные в сотнях морских организмов, таких как медузы и кораллы. Их свечение можно использовать для освещения и изучения болезней .

В банке данных белков 578 флуоресцентных белков , из которых 10 «сломаны» и не флуоресцируют. Белки редко атакуют сами себя, этот процесс называется автокаталитической посттрансляционной модификацией, и очень сложно предсказать, какие белки будут реагировать сами с собой, а какие нет.

Только химик со значительным объемом знаний о флуоресцентных белках сможет использовать аминокислотную последовательность, чтобы найти флуоресцентные белки, которые имеют правильную аминокислотную последовательность для прохождения химических превращений, необходимых для того, чтобы сделать их флуоресцентными. Когда мы представили AlphaFold2 с последовательностями 44 флуоресцентных белков, которых нет в банке данных белков, он уложил фиксированные флуоресцентные белки иначе, чем разорванные .

Результат нас ошеломил: AlphaFold2 немного выучил химию. Они выяснили, какие аминокислоты в флуоресцентных белках участвуют в химических процессах, которые заставляют их светиться. Мы подозреваем, что обучающий набор белковых данных и множественные выравнивания последовательностей позволяют AlphaFold2 «думать» как химики и искать аминокислоты, необходимые для реакции друг с другом, чтобы сделать белок флуоресцентным.

Складная программа, изучающая некоторые химические элементы из своего тренировочного набора, также имеет более широкие последствия. Что еще можно получить от других алгоритмов глубокого обучения , задавая правильные вопросы? Могут ли алгоритмы распознавания лиц найти скрытые маркеры болезней? Могут ли алгоритмы, предназначенные для прогнозирования моделей расходов среди потребителей, также обнаруживать склонность к мелкому воровству или обману? И самое главное, желательна ли эта возможность — и аналогичные скачки в возможностях других систем ИИ?

Знаменитый ИИ научился новому трюку: как заниматься химией



Новости партнеров