Большие наборы данных не всегда лучше подходят для моделей ИИ

Прочитано: 101 раз(а)


От ChatGPT до DALL-E — алгоритмы искусственного интеллекта (ИИ) глубокого обучения применяются в постоянно растущем диапазоне областей. Новое исследование инженеров из Университета Торонто, опубликованное в журнале Nature Communications, предполагает, что одно из фундаментальных предположений моделей глубокого обучения — что они требуют огромных объемов обучающих данных — может быть не таким надежным, как считалось раньше.

Профессор Джейсон Хэттрик-Симперс и его команда сосредоточены на разработке материалов следующего поколения: от катализаторов, преобразующих уловленный углерод в топливо, до антипригарных поверхностей, которые защищают крылья самолетов ото льда.

Одной из проблем в этой области является огромное потенциальное пространство поиска. Например, проект Open Catalyst содержит более 200 миллионов точек данных о потенциальных материалах катализаторов, и все они по-прежнему охватывают лишь крошечную часть огромного химического пространства, которое может, например, скрывать нужный катализатор, который поможет нам решить проблему изменения климата.

«Модели искусственного интеллекта могут помочь нам эффективно исследовать эту область и сузить выбор до тех семейств материалов, которые будут наиболее многообещающими», — говорит Хэттрик-Симперс.

«Традиционно считается, что для обучения точных моделей ИИ необходим значительный объем данных. Но набор данных, подобный тому, что был в проекте Open Catalyst, настолько велик, что вам нужны очень мощные суперкомпьютеры, чтобы справиться с ним. Итак, возникает вопрос справедливости; нам нужно найти способ идентифицировать меньшие наборы данных, на которых люди, не имеющие доступа к огромным вычислительным мощностям, смогут тренировать свои модели».

Но это приводит к второй проблеме: многие из доступных в настоящее время небольших наборов данных о материалах были разработаны для конкретной области — например, для улучшения характеристик аккумуляторных электродов.

Это означает, что они склонны группироваться вокруг нескольких химических составов, подобных тем, которые уже используются сегодня, и могут упускать из виду возможности, которые могли бы быть более многообещающими, но менее интуитивно очевидными.

«Представьте, что вы хотите построить модель для прогнозирования итоговых оценок учащихся на основе результатов предыдущих тестов», — говорит доктор Кангминг Ли, научный сотрудник лаборатории Hattrick-Simpers. «Если бы вы обучали его только студентам из Канады, он мог бы прекрасно работать в этом контексте, но он может не суметь точно предсказать оценки студентов из Франции или Японии. Именно с такой ситуацией мы сталкиваемся в мире материалов».

Одним из возможных решений вышеупомянутых проблем является выявление подмножеств данных из очень больших наборов данных, которые легче обрабатывать, но которые, тем не менее, сохраняют весь спектр информации и разнообразие, присутствующие в оригинале.

Чтобы лучше понять, как качество наборов данных влияет на модели, которые они используют для обучения, Ли разработал методы для выявления высококачественных подмножеств данных из ранее опубликованных наборов данных о материалах, таких как JARVIS, The Materials Project и Open Quantum Materials Database (OQMD). ). В совокупности эти базы данных содержат информацию о более чем миллионе различных материалов.

Ли построил компьютерную модель, предсказывающую свойства материала , и обучил ее двумя способами: один использовал исходный набор данных, а другой — подмножество тех же данных, которое было примерно на 95 % меньше.

«Мы обнаружили, что при попытке предсказать свойства материала, содержащегося в наборе данных, модель, обученная только на 5% данных, работала примерно так же, как модель, обученная на все данные», — говорит Ли. «И наоборот, при попытке предсказать свойства материала, который находился за пределами набора данных, оба они справились одинаково плохо».

Ли говорит, что полученные результаты предлагают способ измерения степени избыточности в данном наборе данных: если увеличение количества данных не улучшает производительность модели, это может быть индикатором того, что эти дополнительные данные избыточны и не предоставляют новой информации для обучения моделям.

«Наши результаты также показывают тревожную степень избыточности, скрытую в этих востребованных больших наборах данных», — говорит Ли.

Исследование также подчеркивает то, что эксперты по искусственному интеллекту во многих областях считают правдой: даже модели, обученные на относительно небольших наборах данных, могут работать хорошо, если данные достаточно высокого качества.

«Все это стало результатом того факта, что с точки зрения использования ИИ для ускорения открытия материалов мы только начинаем», — говорит Хэттрик-Симперс.

«Это предполагает, что по мере продвижения вперед нам нужно очень внимательно относиться к тому, как мы создаем наши наборы данных. Это верно независимо от того, делается ли это сверху вниз, например, при выборе подмножества данных из гораздо большего набора данных или из общего набора данных. снизу вверх, как при отборе новых материалов для включения.

«Нам нужно обращать внимание на информационную насыщенность, а не просто собирать как можно больше данных».

Большие наборы данных не всегда лучше подходят для моделей ИИ



Новости партнеров