Кто, или, скорее, что, станет следующей топ-моделью? Специалисты по данным и разработчики Национального ускорительного центра имени Томаса Джефферсона Министерства энергетики США пытаются это выяснить, исследуя некоторые из новейших технологий искусственного интеллекта (ИИ), чтобы помочь сделать высокопроизводительные компьютеры более надежными и менее затратными в эксплуатации.
Модели в этом случае представляют собой искусственные нейронные сети, обученные отслеживать и прогнозировать поведение научного вычислительного кластера, где постоянно обрабатываются потоки чисел. Цель состоит в том, чтобы помочь системным администраторам быстро выявлять и реагировать на проблемные вычислительные задания, сокращая время простоя для ученых, обрабатывающих данные своих экспериментов.
Почти в стиле показа мод эти модели машинного обучения (ML) оцениваются, чтобы определить, какая из них лучше всего подходит для постоянно меняющихся требований к наборам данных экспериментальных программ. Но в отличие от популярного реалити-шоу «Топ-модель по-американски» и его международных спин-оффов, для выбора победителя не требуется целый сезон. В этом конкурсе каждые 24 часа коронуется новая «модель-чемпионка» на основе ее способности учиться на новых данных.
«Мы пытаемся понять характеристики наших вычислительных кластеров, которые мы не видели раньше», — сказал Брайан Хесс, менеджер по научным вычислениям в Jefferson Lab и ведущий исследователь — или судья, так сказать — в исследовании. «Это более целостный взгляд на центр обработки данных, и в перспективе это будет своего рода модель ИИ или МО».
Хотя эти модели не стали обладателями блестящих фотосессий, проект недавно оказался в центре внимания журнала IEEE Software в рамках специального выпуска, посвященного машинному обучению в работе центров обработки данных (MLOps).
Результаты исследования могут иметь большое значение для Большой науки.
Необходимость
Крупномасштабные научные приборы , такие как ускорители частиц , источники света и радиотелескопы, являются критически важными объектами DOE, которые позволяют проводить научные открытия. В Jefferson Lab это Continuous Electron Beam Accelerator Facility (CEBAF), объект пользователя Управления науки DOE, на который полагается мировое сообщество из более чем 1650 физиков-ядерщиков.
Экспериментальные детекторы в Лаборатории Джефферсона собирают слабые сигнатуры крошечных частиц, исходящих от электронных пучков CEBAF. Поскольку CEBAF производит пучок 24/7, эти сигналы преобразуются в горы данных. Собираемая информация составляет порядка десятков петабайт в год. Этого достаточно, чтобы заполнить жесткий диск среднего ноутбука примерно раз в минуту.
Взаимодействия частиц обрабатываются и анализируются в центре обработки данных лаборатории Джефферсона с использованием высокопроизводительных вычислительных кластеров с программным обеспечением, адаптированным под каждый эксперимент.
Среди мигающих лампочек и спутанных кабелей, сложные задания, требующие нескольких процессоров (ядер), являются нормой. Текучая природа этих рабочих нагрузок означает множество движущихся частей — и больше вещей, которые могут пойти не так.
Определенные вычислительные задачи или проблемы с оборудованием могут привести к неожиданному поведению кластера, называемому «аномалиями». Они могут включать фрагментацию памяти или избыточные обязательства ввода/вывода, что приводит к задержкам для ученых.
«Когда вычислительные кластеры становятся больше, системным администраторам становится все сложнее отслеживать все компоненты, которые могут выйти из строя», — сказал Ахмед Хоссам Мохаммед, научный сотрудник Jefferson Lab и исследователь, работающий над исследованием. «Мы хотели автоматизировать этот процесс с помощью модели, которая мигает красным светом, когда происходит что-то странное.
«Таким образом, системные администраторы смогут принять меры до того, как ситуация ухудшится еще больше».
ДИДАКТИЧЕСКИЙ ПОДХОД
Для решения этих проблем группа разработала систему управления на основе машинного обучения под названием DIDACT (Digital Data Center Twin). Аббревиатура представляет собой игру слов «didactic» (дидактический), что означает нечто, предназначенное для обучения. В данном случае это обучение искусственных нейронных сетей.
DIDACT — это проект, финансируемый программой Jefferson Lab’s Laboratory Directed Research & Development (LDRD). Программа предоставляет ресурсы для сотрудников лаборатории для реализации проектов, которые могут внести быстрый и значительный вклад в критические национальные проблемы науки и техники, имеющие отношение к миссии, и/или расширить основные научные и технические возможности лаборатории.
Система DIDACT предназначена для обнаружения аномалий и диагностики их источника с использованием подхода искусственного интеллекта, называемого непрерывным обучением.
При непрерывном обучении модели МО обучаются на данных, которые поступают постепенно, подобно непрерывному обучению людей и животных. Команда DIDACT обучает несколько моделей таким образом, каждая из которых представляет системную динамику активных вычислительных задач, а затем выбирает лучшую на основе данных за день.
Модели представляют собой вариации неконтролируемых нейронных сетей, называемых автоэнкодерами. Одна из них оснащена графовой нейронной сетью (GNN), которая рассматривает отношения между компонентами.
«Они соревнуются, используя известные данные, чтобы определить, у кого ошибка ниже», — сказала Диана МакСпадден, специалист по данным из Jefferson Lab и руководитель исследования MLOps. «Тот, кто победит в тот день, станет «чемпионом дня».
Этот метод может однажды помочь сократить время простоя в центрах обработки данных и оптимизировать критически важные ресурсы, что означает снижение затрат и улучшение научных исследований.
Вот как это работает.
Следующая топ-модель
Чтобы обучить модели, не влияя на ежедневные вычислительные потребности, команда DIDACT разработала испытательный кластер под названием «песочница». Представьте себе песочницу как взлетно-посадочную полосу, где модели оцениваются, в данном случае на основе их способности к обучению.
Программное обеспечение DIDACT представляет собой ансамбль открытого и индивидуального кода, используемого для разработки и управления моделями машинного обучения, мониторинга кластера песочницы и записи данных. Все эти цифры визуализируются на графической панели.
Система включает три конвейера для «талантов» МО. Один предназначен для офлайн-разработки, как генеральная репетиция. Другой предназначен для постоянного обучения — где происходит живое соревнование. Каждый раз, когда появляется новая топ-модель, она становится основным монитором поведения кластера в конвейере в реальном времени — пока ее не сменит победитель следующего дня.
«DIDACT представляет собой творческое сшивание оборудования и программного обеспечения с открытым исходным кодом», — сказал Хесс, который также является архитектором инфраструктуры для High Performance Data Facility Hub, создаваемого в Jefferson Lab в партнерстве с Lawrence Berkeley National Laboratory Министерства энергетики. «Это комбинация вещей, которые вы обычно не объединяете, и мы показали, что это может работать. Это действительно опирается на силу Jefferson Lab в области науки о данных и вычислительных операций».
В будущих исследованиях команда DIDACT хотела бы изучить структуру МО, которая оптимизирует энергопотребление центра обработки данных, будь то за счет сокращения расхода воды, используемой для охлаждения, или за счет снижения производительности ядер в зависимости от требований обработки данных.
«Цель всегда состоит в том, чтобы обеспечить большую отдачу за вложенные деньги, больше науки за те же деньги», — сказал Хесс.