По мере того, как сложность центров обработки данных и их потребности в энергии растут, электропитание, охлаждение и инфраструктура должны совершенствоваться для поддержки рабочих нагрузок ИИ, пишет Дэйв Ибарра.
Планирование проектов строительства центров обработки данных в 2025 году и далее выглядит существенно иначе, чем десятилетие назад. Однако стратегии планирования и строительства, которые успешно поддерживали отрасль в период резкого роста, все еще могут обеспечить путь вперед.
Появление ChatGPT в конце 2022 года вызвало беспрецедентную гонку среди технологических компаний по разработке решений ИИ, фундаментально изменив инфраструктуру центров обработки данных и энергетические рынки. В основе этой трансформации лежат рабочие нагрузки ИИ, которые состоят из двух основных операций: обучения и вывода. Эти операции в значительной степени опираются на графические процессоры (GPU), которые оказались гораздо более эффективными, чем традиционные центральные процессоры (CPU), для обработки параллельных вычислений, необходимых для обработки ИИ.
Операции обучения ИИ требуют огромной вычислительной мощности, используя синхронизированные массивы графических процессоров для обработки огромных наборов данных. Эти системы обучения предъявляют значительные требования к инфраструктуре, особенно с точки зрения энергопотребления, которое обычно составляет от 90 до 130 кВт на стойку. Такое интенсивное использование энергии требует надежных систем охлаждения для поддержания оптимальных условий эксплуатации. Для сравнения, операции вывода, где обученные модели выполняют определенные задачи, потребляют значительно меньше энергии — обычно от 15 до 40 кВт на стойку. Для сравнения, в то время как стандартный поиск Google потребляет около 0,28 ватт-часов энергии, запрос ChatGPT потребляет примерно в четыре раза больше.
Масштаб инфраструктуры центров обработки данных значительно изменился, чтобы соответствовать этим требованиям. Современные объекты теперь требуют отдельных зданий, потребляющих 100 МВт электроэнергии, а целые кампусы приближаются к 1 ГВт энергопотребления — резкий контраст с предыдущими объектами, которые распределяли 100 МВт по нескольким зданиям. Растущая плотность мощности графических процессоров также потребовала перехода от традиционного воздушного охлаждения к жидкостным решениям охлаждения, которые более эффективно рассеивают тепло непосредственно из блоков графических процессоров.
Учитывая такое положение дел, при разработке будущих центров обработки данных необходимо учитывать несколько критических факторов. Понимание того, будет ли объект в первую очередь заниматься обучением или выводом операций, имеет решающее значение для правильного проектирования. Инфраструктура электропитания должна соответствовать чрезвычайно высоким первоначальным требованиям, превышающим 100 МВт на здание, с возможностью масштабирования до 1 ГВт на кампус. Системы с более высоким напряжением становятся необходимыми для управления возросшими требованиями к электропитанию, одновременно устраняя тепловые ограничения в силовых кабелях.
Системы охлаждения должны развиваться, чтобы справляться с растущими требованиями в зданиях и залах данных, в то время как ИТ-среды становятся все более сложными из-за сочетания графических процессоров, центральных процессоров, хранилищ и сетевых компонентов. Эта сложность требует гибридного подхода к охлаждению, сочетающего традиционные воздушные системы для определенных компонентов с жидкостным охлаждением для аппаратного обеспечения графических процессоров. Кроме того, требования к волокну значительно возрастают, что влияет на пространство и вес объекта.
Сами залы данных развиваются, требуя большего вертикального пространства для размещения дополнительных слоев инфраструктуры над стойками. Эти слои включают шинопроводы, кабельные лотки, каналы для оптоволокна, системы противопожарной защиты и основные системы охлаждения, включающие водопровод и техническую водную инфраструктуру.
Скорость является особенностью нынешней гонки, и, таким образом, цикл проектирования и строительства необходимо будет еще больше сократить, используя сборку не только для электрических и механических слоев, но и для здания в целом. Это ключ к уменьшению дальнейших препятствий для планирования строительства, деятельности и безопасности рабочей силы.
Существующие центры обработки данных сталкиваются с трудностями адаптации к новым требованиям ИИ, особенно для рабочих нагрузок вывода. Эта адаптация часто включает в себя модификации электрической системы и модернизацию для возможностей жидкостного охлаждения, что напоминает эволюцию центров обработки данных в начале и середине 2000-х годов. Однако учебные центры обычно требуют новых площадок для обработки огромных требований к питанию и строгих сетевых спецификаций.
Хотя последние итерации графических процессоров Nvidia продемонстрировали впечатляющие улучшения в стоимости и производительности как для операций обучения, так и для операций вывода, общее потребление электроэнергии продолжает расти пропорционально использованию, следуя парадоксу Джевонса. Эта тенденция требует постоянного развития технологий питания и охлаждения, а также подходов к проектированию.
Эволюция отрасли ИИ идет параллельно закону Мура, подчеркивая необходимость тесно связанных между собой стоек для минимизации потерь энергии и оптимизации скорости обработки данных. Эта трансформация фактически превращает центры обработки данных ИИ в крупномасштабные блоки GPU.
Быстрый рост ИИ привел к резкому изменению динамики энергетического рынка, перейдя от стабильного ежегодного роста к резкому экспоненциальному росту. Этот всплеск привел к нескольким адаптациям в отрасли, включая:
-
Создание центров обработки данных ИИ в отдаленных местах с обилием энергетических ресурсов
-
Повторное использование выведенных из эксплуатации электростанций
-
Разработка специализированных электростанций для центров обработки данных
-
Расширение партнерских отношений между коммунальными службами и технологическими компаниями для инвестирования в современные и будущие технологии, включая ядерную энергетику.
Расширение инфраструктуры ЦОД сталкивается с дополнительными трудностями из-за ограничений в строительной отрасли. К ним относятся ограничения производственных мощностей, нехватка строителей и специализированных субподрядчиков, а также нехватка квалифицированных рабочих, способных удовлетворить технические требования современных ЦОД.
Несмотря на эти серьезные проблемы, отрасль сохраняет оптимистичный взгляд на вещи, признавая преобразующий потенциал ИИ и используя возможность внедрения инноваций и адаптации к этим новым требованиям.
Развитие инфраструктуры центров обработки данных является важнейшим фактором более широкого развития ИИ, требующим постоянного сотрудничества между технологическими компаниями, поставщиками коммунальных услуг и специалистами по строительству для удовлетворения растущих потребностей этого быстрорастущего сектора.