Спустя два с половиной года после преодоления барьера эксафлопсности суперкомпьютер Frontier в Национальной лаборатории Оук-Ридж Министерства энергетики США продолжает устанавливать новые стандарты скорости и производительности вычислений.
Суперкомпьютерная система HPE Cray EX на этой неделе сообщила о новых максимумах скорости решения задач, обновленных для объявления TOP500 на Международной конференции по высокопроизводительным вычислениям, сетям, хранению и анализу (SC24) в Атланте. Команда Frontier достигла результата High-Performance Linpack (HPL) в 1,35 экзафлопс или 1,35 квинтиллиона вычислений в секунду с использованием арифметики двойной точности — 64-битного международного научного стандарта точности вычислений.
«Новые показатели Frontier отражают огромный вклад экспертов OLCF в области вычислений и вычислений, которые знают, как наилучшим образом оптимизировать передовые высокопроизводительные вычислительные системы для удовлетворения меняющихся потребностей нашего научного сообщества пользователей», — отметила Джина Турасси, заместитель директора лаборатории вычислений и вычислительных наук в ORNL.
«Они никогда не перестают расширять границы на протяжении всего срока службы системы».
Результат принес Frontier второе место в списке TOP500 за ноябрь 2024 года, в котором оцениваются самые быстрые суперкомпьютеры в мире. Frontier дебютировал на вершине списка в мае 2022 года с показателем 1,1 экзафлопс как первая машина, достигшая экзафлопсной производительности на уровне более квинтиллиона вычислений в секунду.
«Наша внутренняя команда экспертов понимает, как получить максимальную отдачу от этой системы с точки зрения производительности», — сказал Эшли Баркер, директор Oak Ridge Leadership Computing Facility, где размещается Frontier. «Это самая опытная в мире команда по вычислениям на exascale-системах, и они провели этот тест на Frontier, пока машина решала другие научные задачи для пользователей».
Повышение производительности Frontier означает скачок примерно на 150 петафлопс, или 150 квадриллионов вычислений в секунду, что примерно эквивалентно производительности его предшественника суперкомпьютера Summit, который был выведен из эксплуатации на прошлой неделе.
«Мы уже смогли решить невероятно большие проблемы на Frontier — самые большие научные проблемы на планете», — сказал Эл Гейст, корпоративный сотрудник ORNL и директор проекта Frontier. «В этом году мы фактически взяли на вооружение мощь другого суперкомпьютера (вроде Summit)».
Frontier опирается на созвездие из тысяч узлов, каждый из которых представляет собой автономный суперкомпьютер с одним ЦП и четырьмя ГП, соединенных более чем 90 милями кабеля, чтобы они могли общаться и работать вместе над большими проблемами. Frontier дебютировал в 2022 году с более чем 9400 узлами, и с тех пор команды добавили еще 400 узлов, доведя общее число до более чем 9800. Последний тест HPL проводился на 9500 узлах.
Geist оценивает, что около половины улучшенных показателей Frontier можно отнести на счет новых узлов, которые использовались для разработки и тестирования приложений в рамках Exascale Computing Project. ECP курировал разработку программных приложений для Frontier и других exascale машин, таких как суперкомпьютер Aurora в Аргоннской национальной лаборатории и суперкомпьютер El Capitan в Ливерморской национальной лаборатории им. Лоуренса, и завершил свою работу в начале этого года.
Помимо новых узлов и опыта в области экзафлопсных вычислений, накопленного экспертами OLCF, Frontier может похвастаться усовершенствованиями своих математических библиотек, разработанных компанией HPE, создавшей Frontier, и компанией AMD, производителем центральных и графических процессоров, лежащих в основе Frontier.
Помимо обновленного числа HPL, команда Frontier зарегистрировала новый результат High-Performance Linpack-Mixed Precision (HPL-MxP) в 11,4 экзафлопс или 11,4 квинтиллиона вычислений в секунду, запущенных на всех 9800 узлах. Это скачок более чем на экзафлопс по сравнению с предыдущим результатом HPL-MxP в 10,2 экзафлопс.
Подробные симуляции, используемые для моделирования таких явлений, как раковые клетки, сверхновые, коронавирус или атомная структура элементов, требуют 64-битной точности, стандарта точности, требующего вычислений. Алгоритмы машинного обучения, используемые для искусственного интеллекта, обычно требуют меньшей точности — иногда всего лишь 32-, 24- или 16-битной точности.
«Это показывает, насколько хорош Frontier для решения задач ИИ», — сказал Баркер.
«Результаты, которые мы получаем при запуске со смешанной точностью, одинаково точны, но они достигаются другим способом, математически. Для некоторых вопросов двойная точность останется стандартом, но при таких потенциальных скоростях мы ожидаем, что больше исследователей начнут изучать, каких результатов они могут достичь с помощью смешанной точности.
«Они хотели бы воспользоваться этой возможностью, чтобы решать проблемы в 10 раз быстрее, и наша команда знает, как этого добиться».
Frontier — это система HPE Cray EX с более чем 9800 узлами, каждый из которых оснащен процессором AMD EPYC третьего поколения и четырьмя графическими процессорами AMD Instinct MI250X. OLCF — это пользовательское учреждение Управления науки Министерства энергетики США.