Набор данных суперкомпьютерного центра призван ускорить исследования ИИ в области оптимизации высокопроизводительных вычислительных систем

Когда Суперкомпьютерный центр Линкольнской лаборатории Массачусетского технологического института (LLSC) представил свой суперкомпьютер TX-GAIA в 2019 году, он предоставил сообществу Массачусетского технологического института новый мощный ресурс для применения искусственного интеллекта в своих исследованиях. Любой в Массачусетском технологическом институте может отправить задание системе, которая выполняет триллионы операций в секунду для обучения моделей для различных приложений, таких как обнаружение опухолей на медицинских изображениях, открытие новых лекарств или моделирование климатических эффектов. Но с этой великой силой приходит и большая ответственность за управление ею и ее устойчивое использование, и команда ищет способы ее улучшения.

«У нас есть эти мощные вычислительные инструменты, которые позволяют исследователям создавать сложные модели для решения проблем, но по сути их можно использовать как черные ящики. При этом теряется то, насколько эффективно мы используем аппаратное обеспечение», — говорит Сиддхарт Самси. , научный сотрудник LLSC.

Чтобы разобраться в этой проблеме, LLSC собирает подробные данные об использовании TX-GAIA за последний год. Спустя более миллиона пользовательских заданий команда выпустила набор данных с открытым исходным кодом для компьютерного сообщества.

Их цель — дать специалистам по информатике и операторам центров обработки данных возможность лучше понять возможности оптимизации центров обработки данных, что является важной задачей, поскольку потребности в обработке данных продолжают расти. Они также видят потенциал для использования ИИ в самом центре обработки данных, используя данные для разработки моделей для прогнозирования точек отказа, оптимизации планирования заданий и повышения энергоэффективности . Хотя облачные провайдеры активно работают над оптимизацией своих центров обработки данных , они не часто делают свои данные или модели доступными для более широкого сообщества высокопроизводительных вычислений (HPC). Выпуск этого набора данных и связанного с ним кода призван заполнить это пространство.

«Центры обработки данных меняются. У нас наблюдается бурный рост аппаратных платформ, развиваются типы рабочих нагрузок и меняются типы людей, использующих центры обработки данных», — говорит Виджай Гадепалли, старший научный сотрудник LLSC. «До сих пор не было хорошего способа проанализировать влияние на центры обработки данных. Мы рассматриваем это исследование и набор данных как большой шаг к выработке принципиального подхода к пониманию того, как эти переменные взаимодействуют друг с другом, а затем к применению ИИ. для понимания и улучшений».

Документы, описывающие набор данных и потенциальные приложения, были приняты на ряд мероприятий, включая Международный симпозиум IEEE по архитектуре высокопроизводительных компьютеров, Международный симпозиум IEEE по параллельной и распределенной обработке, Ежегодную конференцию Североамериканского отделения Ассоциации вычислительной техники. Лингвистика, Конференция IEEE по высокопроизводительным и встроенным вычислениям и Международная конференция по высокопроизводительным вычислениям, сетям, хранению и анализу.

Классификация рабочей нагрузки

Среди суперкомпьютеров TOP500 в мире TX-GAIA сочетает в себе традиционное вычислительное оборудование (центральные процессоры или ЦП) с почти 900 ускорителями графических процессоров (GPU). Эти графические процессоры NVIDIA предназначены для глубокого обучения — класса ИИ, который дал начало распознаванию речи и компьютерному зрению.

Набор данных охватывает использование ЦП, ГП и памяти по заданиям; журналы планирования; данные физического мониторинга. По сравнению с аналогичными наборами данных, например, от Google и Microsoft, набор данных LLSC предлагает «помеченные данные, множество известных рабочих нагрузок ИИ и более подробные данные временных рядов по сравнению с предыдущими наборами данных. Насколько нам известно, это один из наиболее полных и доступны детализированные наборы данных», — говорит Гадепалли.

Примечательно, что команда собирала данные временных рядов с беспрецедентным уровнем детализации: 100-миллисекундные интервалы на каждом графическом процессоре и 10-секундные интервалы на каждом процессоре, поскольку машины обрабатывали более 3000 известных заданий глубокого обучения. Одна из первых целей — использовать этот помеченный набор данных для характеристики рабочих нагрузок, которые различные типы заданий глубокого обучения создают в системе. Этот процесс будет извлекать функции, которые выявляют различия в том, как аппаратное обеспечение обрабатывает модели естественного языка по сравнению, например, с классификацией изображений или моделями проектирования материалов.

Теперь команда запустила MIT Datacenter Challenge, чтобы мобилизовать это исследование. Задача предлагает исследователям использовать методы искусственного интеллекта для определения с 95-процентной точностью типа выполняемой работы, используя свои помеченные данные временных рядов как наземную правду.

Такое понимание может позволить центрам обработки данных лучше соответствовать запросу пользователя на работу с аппаратным обеспечением, наиболее подходящим для него, потенциально сохраняя энергию и повышая производительность системы. Классификация рабочих нагрузок также может позволить операторам быстро замечать несоответствия, возникающие в результате сбоев оборудования, неэффективных моделей доступа к данным или несанкционированного использования.

Слишком много вариантов

Сегодня LLSC предлагает инструменты, которые позволяют пользователям отправлять свои задания и выбирать процессоры, которые они хотят использовать, «но со стороны пользователей возникает много догадок», — говорит Самси. «Кто-то может захотеть использовать новейший графический процессор, но, возможно, его вычисления на самом деле не нужны, и они могут получить столь же впечатляющие результаты на центральных процессорах или машинах с меньшей мощностью».

Профессор Девеш Тивари из Северо-восточного университета работает с командой LLSC над разработкой методов, которые могут помочь пользователям сопоставлять свои рабочие нагрузки с соответствующим оборудованием. Тивари объясняет, что появление различных типов ускорителей искусственного интеллекта, графических процессоров и процессоров поставило пользователей перед слишком большим выбором. Без правильных инструментов, позволяющих воспользоваться этой неоднородностью, они упускают преимущества: более высокую производительность, более низкие затраты и более высокую производительность.

«Мы устраняем именно этот пробел в возможностях, повышая производительность пользователей и помогая им заниматься наукой лучше и быстрее, не беспокоясь об управлении разнородным оборудованием», — говорит Тивари. «Мой аспирант Баолин Ли создает новые возможности и инструменты, которые помогут пользователям высокопроизводительных вычислений почти оптимально использовать разнородность без вмешательства пользователя, используя методы, основанные на байесовской оптимизации и других методах оптимизации, основанных на обучении. Мы ищем способы внедрить неоднородность в наши центры обработки данных, используя принципиальный подход, чтобы помочь нашим пользователям получить максимальное преимущество от неоднородности автономно и с минимальными затратами».

Классификация рабочих нагрузок — это первая из многих проблем, которые предстоит решить в рамках Datacenter Challenge. Другие включают разработку методов искусственного интеллекта для прогнозирования сбоев заданий, экономии энергии или создания подходов к планированию заданий, повышающих эффективность охлаждения центра обработки данных.

Энергосбережение

Чтобы мобилизовать исследования в области более экологичных вычислений, команда также планирует выпустить набор данных об окружающей среде операций TX-GAIA, содержащий температуру стойки, энергопотребление и другие соответствующие данные.

По словам исследователей, существуют огромные возможности для повышения энергоэффективности систем высокопроизводительных вычислений, используемых для обработки ИИ. Например, недавняя работа в LLSC показала, что простая настройка оборудования, такая как ограничение мощности, которую может потреблять отдельный графический процессор, может снизить затраты энергии на обучение модели ИИ на 20 процентов при лишь незначительном увеличении времени вычислений. «Это сокращение означает, что энергии домохозяйства хватит примерно на целую неделю при увеличении времени всего на три часа», — говорит Гадепалли.

Они также разрабатывают методы прогнозирования точности модели, чтобы пользователи могли быстро завершать эксперименты, которые вряд ли дадут значимые результаты, экономя энергию. В рамках Datacenter Challenge будут представлены соответствующие данные, которые позволят исследователям изучить другие возможности экономии энергии.

Команда ожидает, что уроки, извлеченные из этого исследования, могут быть применены к тысячам центров обработки данных, находящихся в ведении Министерства обороны США.

Среди других сотрудников — исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL). Исследовательская группа Supertech под руководством профессора Чарльза Лейзерсона изучает методы повышения производительности параллельных вычислений, а научный сотрудник Нил Томпсон разрабатывает исследования, направленные на то, чтобы подтолкнуть пользователей центров обработки данных к безвредному для климата поведению.

Самси представил эту работу на первом семинаре AI для оптимизации центров обработки данных (ADOPT’22) прошлой весной в рамках Международного симпозиума по параллельной и распределенной обработке данных IEEE. Семинар официально представил сообществу высокопроизводительных вычислений задачу Datacenter Challenge.

«Мы надеемся, что это исследование позволит нам и другим владельцам суперкомпьютерных центров лучше реагировать на потребности пользователей, а также снизить энергопотребление на уровне центра», — говорит Самси.