Как активные архивы отвечают растущим потребностям ИИ в энергии и хранении данных

Активное архивирование обеспечивает эффективное решение для управления потребностями ИИ в данных, обеспечивая баланс доступа к хранилищу, энергопотребления и затрат в центрах обработки данных.

Взрывной рост ИИ создал потребность в новых подходах к использованию энергии, управлению данными и агрегации информации. Активное архивирование может помочь решить многие из этих проблем, позволяя организациям использовать всю мощь больших наборов данных ИИ.

Приложения ИИ процветают, имея доступ к максимально возможному объему данных. Однако современные решения по управлению данными и их хранению привели к тому, что центры обработки данных перегружены дорогим, энергоемким высокопроизводительным сетевым и складским оборудованием.

Поскольку внедрение ИИ продолжается, становится ясно, что эта революционная технология продолжит потреблять огромное количество энергии . Один запрос в большую языковую модель (LLM), такую как ChatGPT, генерирует в сто раз больше углерода, чем поиск в Google.

Кроме того, LLM требуют обучения, которое может потреблять до 10 ГВт·ч для одной модели. LLM создают не только Google, Azure и AWS. Многие компании, правительства и организации работают над собственными моделями.

Достаточно часто большинство этих данных не могут часто использоваться после первых нескольких недель. Однако некоторые исторические данные должны быть более легкодоступными. Имеет смысл организовать несколько уровней хранения на основе частоты доступа, задержки и стоимости, а не хранить все это на дорогом, энергоемком основном хранилище. Такие архитектуры должны поддерживать проблемы управления данными, которые естественным образом возникают, когда требуются различные уровни обслуживания.

Не каждый набор данных ИИ требует высокопроизводительного хранилища

Программное обеспечение для интеллектуального управления данными Active Archive позволяет хранить данные в различных местах и распределять их по нескольким устройствам и уровням хранения, обеспечивая при этом легкий доступ к этим данным в любое время для поддержки потребностей пользователей, включая рабочие процессы ИИ.

Существует довольно много наборов данных ИИ, которые можно считать «холодными», поскольку они нечасто используются или к ним редко обращаются по сравнению с активными наборами данных, которые регулярно используются и обновляются в рамках текущих рабочих процессов ИИ. Среди этих холодных наборов данных могут быть исторические данные, которые больше не используются или не обучаются; долгосрочные данные соответствия для соответствия нормативным или правовым требованиям; данные, используемые для экспериментальных целей или предварительного обучения; неиспользуемые или отклоненные данные; и синтетические данные, используемые для тестирования, сравнительного анализа или исследований вне рабочего процесса производства ИИ.

Эффективное управление холодными данными в активном архиве имеет решающее значение для оптимизации ресурсов хранения и энергоресурсов, чтобы гарантировать, что даже данные, имеющие лишь потенциальную будущую ценность, могут храниться экономически эффективно в течение неопределенного периода времени.

Влияние ИИ на архивы

Архивы когда-то считались хранилищами данных, к которым обращались лишь изредка, если вообще обращались. Появление современного ИИ изменило ситуацию. Почти все корпоративные данные могли бы быть ценными, если бы были доступны для ИИ-движка. Поэтому многие предприятия обращаются к архивированию, чтобы собрать организационные данные в одном месте и сделать их доступными для инструментов ИИ и GenAI.

Массивные архивы данных могут храниться в активном архиве по выгодной цене и с очень низким уровнем потребления энергии, при этом данные будут легко доступны в сети. Десятилетия архивных данных затем могут быть проанализированы как часть LLM или другого алгоритма машинного обучения или глубокого обучения.

Программное обеспечение для интеллектуального управления данными

Уровень программного обеспечения интеллектуального управления данными является основой активного архива. Этот уровень программного обеспечения играет важную роль в автоматическом перемещении данных в соответствии с определенными пользователем политиками туда, где они должны быть с точки зрения затрат, производительности и приоритетов рабочей нагрузки.

Высокоценные данные, к которым часто обращаются, могут храниться в памяти. Другие данные могут находиться на SSD, нижних уровнях дисков и в ленточном или облачном активном архиве. Это позволяет приложениям ИИ добывать все эти данные, не подвергаясь задержкам из-за хранения контента вне офиса или необходимости его передачи туда, где ИИ может его обработать.

Поддержание устойчивости хранения

В результате бума ИИ центры обработки данных становятся больше, плотнее и более энергоемкими; фактически, на отрасль уже приходится почти 2% от общего потребления электроэнергии в США. Эти тенденции, вероятно, продолжатся по мере добавления большего количества графических процессоров (GPU) для обслуживания потребностей высокопроизводительных вычислений (HPC), GenAI и других требовательных приложений.

Хранение холодных и редко используемых данных в активном архиве существенно влияет как на энергопотребление, так и на выбросы CO2e. По данным Brad Johns Consulting , в исследовании, где 100 ПБ данных должны храниться в течение десяти лет, хранение 40% этих данных на жестких дисках и перемещение 60% в автоматизированную систему ленточной библиотеки данных приводит к 58% сокращению выбросов CO2e, а электронные отходы сокращаются на 53%.

Спрос на корпоративные хранилища, несомненно, возрастет в ближайшие годы. Массовый рост, подпитываемый ИИ, подчеркнул необходимость эффективного управления данными от периферии до основного центра обработки данных и облака.

Эффективное управление огромными объемами данных лежит в основе успеха ИИ. Если организации, реализующие инициативы ИИ, хотят реализовать свой потенциал для продуктивных и полезных результатов, они должны уметь обрабатывать, анализировать, сопоставлять и делать выводы на основе огромных объемов информации. Как только объемы данных превышают несколько ПБ, активный архив может предоставить приложениям ИИ правильное сочетание доступа, производительности, энергоэффективности и доступности.

Инфраструктура для ИИ должна быть заложена на основе хорошо спланированного хранения данных и рабочих процессов. В противном случае плохо спланированное управление данными негативно скажется на расходах, безопасности данных, киберустойчивости, соблюдении законодательства, опыте клиентов, принятии решений, потреблении энергии и даже репутации бренда.

В эту эпоху ИИ эффективное управление данными является необходимой частью основных компетенций, которые организации должны достичь для эффективной цифровой трансформации. И именно здесь решение активного архива приносит пользу современному предприятию на основе ИИ.