Развивающиеся чипсеты ставят под микроскоп методы управления программным обеспечением

Развивающиеся чипсеты для центров обработки данных ставят под микроскоп методы охлаждения, питания и управления программным обеспечением.

Новые конструкции процессоров, которые могут революционизировать подходы к поддержке более высокой плотности мощности в стойке, по-видимому, пройдут еще годы.

Когда в мае 2021 года IBM представила первый в мире 2-нанометровый чипсет, способный вместить до 50 миллиардов транзисторов в чип размером с ноготь, казалось, что на горизонте уже замаячил дивный новый мир. Тем не менее, может пройти еще несколько лет, прежде чем преимущества 2-нанометровых технологий снизятся до плотности мощности, эффективности и устойчивости центров обработки данных.

Ходят слухи , что 3-нм чип Intel не появится до Lunar Lake в 2024 году, а за ним последует чип 17-го поколения для клиентских устройств, Nova Lake, с ожидаемым 50-процентным повышением производительности процессора и самым большим изменением архитектуры с тех пор. Core в 2006 году — примерно одновременно с Diamond Rapids для сервера в 2025 году или около того.

Доминирующий гигант по производству чипов продолжает разыгрывать свои карты медленно и близко к груди.

Intel отказалась говорить с ComputerWeekly об этой функции, но директор по исследованиям Uptime Дэниел Бизо также предполагает, что повышение производительности будет постепенным, а не революционным.

«На самом деле все сводится к самой природе физики полупроводников», — говорит Бизо . «Так что это не новое явление. Он улучшается медленнее, чем его физическая плотность, в течение десятилетия».

С 2022 года ожидается более высокая мощность Sapphire Rapids с многоячейковой конструкцией микросхем 10-нм чипов Xeon, включающих встроенную динамическую память с высокой пропускной способностью для увеличения емкости и хранения данных ближе к процессору, что будет полезно для определенных рабочих нагрузок, таких как которые требуют более низких задержек, говорит Бизо.

Дорожная карта Intel, неофициально опубликованная на Reddit в середине 2021 года, предполагает повышение производительности процессора на 10% в 2022 году с помощью Raptor Lake, за которым следует «настоящий чиплет или плиточный дизайн» в Meteor Lake, более или менее идущий в ногу с AMD и Apple.

Предполагается, что процессор Xeon Sapphire Rapids предлагает 56 ядер, 112 потоков и расчетную тепловую мощность (TDP) до 350 Вт. Ожидается, что ключевой конкурент AMD предложит до 96 ядер и 192 потоков с TDP до 400 Вт со своими процессорами EPYC Genoa, а также улучшенный кэш, ввод-вывод, линии PCIe и возможности DDR5.

Так что может пройти какое-то время, прежде чем инновации в области чипсетов сами по себе смогут помочь справиться с нагрузкой в центрах обработки данных.

Бизо добавляет: «Когда вы продолжаете интегрировать больше ядер, становится трудно идти в ногу с памятью. Вы можете добавить каналы памяти, что мы и сделали, но после определенного момента это становится дорогостоящим. Вам нужны логические платы с гораздо большим количеством проводов, иначе у вас закончатся контакты».

Пересмотр программного стека

Загрузка процессоров данными без добавления дополнительных каналов памяти и модулей должна оказаться более эффективным способом обслуживания приложений с экстремально высокой пропускной способностью. Тем не менее, Uptime также считает, что для повышения производительности и эффективности с помощью новейших чипов изучение и пересмотр программного стека становится критически важным.

«К середине 2020-х грядущие чипы на самом деле не будут вызывать такого восторга, если люди не захотят действительно встряхнуть стек приложений и то, как они управляют инфраструктурой», — говорит Бизо.

«Вы можете повысить эффективность, если измените свои подходы к таким вещам, как консолидация рабочих нагрузок и виртуализация программного обеспечения — с гораздо большим количеством виртуальных машин на одном сервере или, возможно, рассмотрите возможность использования программных контейнеров».

Это может быть практическим результатом, говорит Бизо, отмечая, что поколение масштабируемых серверных чипов Skylake, появившееся в 2017 году с 14-нм техпроцессом, потребляло меньше энергии в режиме ожидания, чем новейшие чипы сегодня.

Энтони Милованцев, партнер технической консалтинговой компании Altman Solon, говорит, что реальность такова, что в обозримом будущем мы будем твердо придерживаться стандартной парадигмы кремниевой подложки, КМОП-транзисторов и архитектуры фон Неймана.

Он добавляет, что в то время как квантовые вычисления генерируют активность, сценарии использования представляют собой небольшую часть того, что требуется, хотя центры обработки данных для размещения квантовой машины в конечном итоге будут выглядеть совсем по-другому, например, с криогенным охлаждением.

«Если им вообще нужны квантовые мощности, нормальные предприятия почти наверняка будут потреблять их как услугу, а не владеть собственными», — говорит Милованцев.

«В ближайшей перспективе сложные полупроводники обладают интересными свойствами, позволяющими работать с более высокой тактовой частотой, но они существуют уже некоторое время и имеют значительные недостатки по сравнению с диоксидом кремния. Так что это останется нишевым».

Дополнительные улучшения

Таким образом, Милованцев согласен с Бизо в том, что инновации в чипах, вероятно, будут зависеть от постоянных постепенных улучшений узлов транзисторных процессов, таких как 3-нм, а также таких инноваций, как RibbonFET со сквозным затвором, или использования инновационных корпусов кристаллов, таких как 2,5D с кремниевыми переходниками . или настоящая трехмерная укладка штампов.

Тем не менее, он указывает на Arm/RISC для разработки чипов для центров обработки данных для улучшения цены и производительности или для нишевых рабочих нагрузок HPC. Примеры включают гиперскейлеры, такие как Amazon Web Services (AWS), переходящие на Arm/RISC с Graviton, или анонсированный Nvidia процессор Grace для высокопроизводительных вычислений (HPC).

«Конечным результатом всего этого, однако, является лишь незначительное снижение энергопотребления на уровне чипа», — говорит Милованцев. «На самом деле, основным результатом является более высокая плотность мощности, поскольку вы втисните больше транзисторов в малые форм-факторы, чтобы удовлетворить постоянно растущую потребность в вычислительной мощности. Проблема плотности мощности и, следовательно, охлаждения центра обработки данных со временем станет только более важной».

Когда-то, если вы не были гиперскейлером или центром обработки данных, в котором размещались компании, предоставляющие инфраструктуру как услугу (IaaS) или майнинг криптовалюты, вам, вероятно, не требовались высокая плотность мощности или надежное охлаждение для их поддержки. Конечно, все меняется по мере того, как предприятия все шире используют аналитику, большие данные и машинное обучение.

«Высокопроизводительные процессоры Intel и AMD для центров обработки данных исторически имели TDP в диапазоне 100–200 Вт, — говорит Милованцев. «Текущие топовые AMD EPYC или Intel Ice Lake уже превышают 250 Вт, а Intel Sapphire Rapids в конце 2022 года будет 350 Вт».

Он советует явно связать нужные приложения с правильным оборудованием с правильными системами охлаждения и питания в правильном типе зала или объекта, хотя бизнес-подразделения будут все чаще запрашивать и покупать чипы с более высокими конвертами TDP.

По словам Милованцева, центры обработки данных должны разработать меню проверенных вариантов охлаждения для работы, а также способы маршрутизации мощностей с большей силой тока с использованием современных шин в дополнение к использованию правильных инструментов мониторинга серверов.

Найджел Гор, глобальный руководитель Vertiv по высокой плотности и жидкостному охлаждению, отмечает, что исторически центры обработки данных были рассчитаны на поддержку плотности мощности стоек 3–5 кВт, но современные высокопроизводительные системы поддерживают удельную мощность в 10–20 раз выше.

«Поставщики чипов всегда говорят о производительности на потребляемый ватт, и каждое отдельное усовершенствование и дорожная карта требуют дополнительного прироста производительности по сравнению с предыдущим поколением», — говорит Гор. «Поэтому, когда вы смотрите на охлаждение этих чипсетов, вам нужен поток воздуха и радиатор, чтобы рассеивать такое количество тепла, и вам нужно следить за влажностью».

Часто сегодня он работает ближе к верхнему пределу рабочих параметров, поэтому решения с жидкостным охлаждением набирают все большую популярность, особенно на более высоком уровне, поскольку Intel теперь также считает жидкостное охлаждение важным для новых конструкций чипсетов.

Как мы видели, эти дополнительные выгоды на несколько лет вперед выглядят довольно скромно.

Но Gore также предлагает следить за новостями о модуле-ускорителе, похожем на GPU, который разрабатывается участниками Open Compute Project.

«У него будет несколько комбинаций в зависимости от того, как они упаковывают систему производительности», — говорит он. «Но он будет включать в себя ASIC и высокоскоростные межсоединения для памяти, и он действительно разработан с учетом высокой плотности и производительности для поддержки автоматизации и машинного обучения.

«Вы можете разместить восемь таких устройств на одном сервере. Умножьте их на показатель TDP — это восемь раз по 700 Вт. В одном сервере у вас есть 5,6 кВт тепловой плотности».

Расширенные приложения

Центры обработки данных могут еще не поддерживать машинное обучение, искусственный интеллект и эти высокопроизводительные многофункциональные приложения для высокопроизводительных вычислений и работать с более низкой плотностью мощности. Хотя у них нет срочной необходимости развертывать новейшие наборы микросхем, вскоре все больше организаций рассмотрят возможность внедрения передовых приложений, и тогда у них возникнет потребность в производительности, говорит Гор.

«В середине 2020 года мы видели стойки высокой плотности 30–35 кВт, — добавляет он. «Очень быстро, через шесть месяцев, мощность выросла до 45 кВт, а в этом году мы начали замечать, как консультанты по дизайну говорят о плотности поддержки 60 кВт».

Фаусто Ванинетти, архитектор технических решений для облачной инфраструктуры и программного обеспечения в Cisco EMEA and Russia (EMEAR), отмечает, что, пока мы ждем новых конструкций чипсетов, сосредоточимся на автономных или модульных серверах с достаточной площадью материнской платы для вентиляции и размещения радиаторов — уделяя внимание для вентиляторов и эффективности блока питания — может быть полезно.

В конце концов, технологии ЦП развиваются, но требования к питанию тоже.

Ускорительные и специальные устройства также получают все большее распространение и требуют особого внимания. Карты графического процессора или модули энергонезависимой памяти, например, имеют высокое энергопотребление и потребность в охлаждении, говорит Ванинетти.

«Масштабируемые процессоры Intel Xeon Platinum 8380 имеют TDP 270 Вт, AMD EPYC 7763 — 280 Вт, а процессоры следующего поколения, как ожидается, вырастут до 350 Вт», — добавляет он. «Поддержка высокопроизводительных процессоров имеет решающее значение для обеспечения сбалансированной конфигурации от шести до восьми графических процессоров или пулов энергонезависимой памяти, которые можно подключить к серверу».

По словам Ванинетти, «очень большое» количество линий AMD PCIe наиболее полезно для стоечных серверов, к которым можно подключать ресурсы, такие как множество дисков NVMe или карт PCIe, а также в развивающихся форм-факторах, таких как Cisco UCS серии X. Он добавил, что у Intel есть несколько процессоров, способных работать на высоких тактовых частотах, более подходящих для определенных рабочих нагрузок.

По словам Ванинетти, серия UCS X от Cisco была ориентирована на воздушный поток и энергоэффективность и по-прежнему может поддерживать топовые конфигурации без необходимости «непригодного количества потребляемой мощности». Однако в течение следующего десятилетия жидкостное охлаждение станет одной из технологий, которая станет необходимой для поддержки более высокой плотности мощности — в зависимости от ограничений отдельных центров обработки данных, отмечает он.

«Варианты на уровне шасси или, возможно, на уровне стойки могут позволить заказчику сохранить существующее воздушное охлаждение на уровне центра обработки данных», — добавляет он. «Другим важным фактором, когда речь идет о фермах серверов и связанном с ними оборудовании, является то, как вы управляете ими и используете их».