Локально работающие системы искусственного интеллекта, известные как LLM на периферии, могли бы помочь снизить нагрузку на центры обработки данных, но может пройти некоторое время, прежде чем этот подход станет общепринятым.
Было много публикаций о проблеме, которую ИИ создает для мощности ЦОД . Один из способов облегчить нагрузку — использовать «LLM на периферии», что позволяет системам ИИ работать на ПК, планшетах, ноутбуках и смартфонах.
Очевидные преимущества LLM на периферии включают снижение стоимости обучения LLM, сокращение задержек при запросах LLM, повышение конфиденциальности пользователей и повышение надежности.
Если они смогут снизить нагрузку на центры обработки данных, сократив потребности в вычислительной мощности, LLM на периферии могли бы иметь потенциал для устранения необходимости в многогигаваттных масштабах фабрик ИИ-центров обработки данных . Но действительно ли этот подход осуществим?
В связи с растущими дискуссиями о переносе LLM, лежащих в основе генеративного ИИ, на периферию , мы более подробно рассмотрим, может ли этот переход действительно снизить нагрузку на центры обработки данных.
Смартфоны лидируют в области искусственного интеллекта Edge
Майкл Азофф, главный аналитик по исследованиям облачных вычислений и центров обработки данных в Omdia, говорит, что наиболее быстро развивающийся вариант использования ИИ на периферии — это облегченные LLM на смартфонах.
Huawei разработала различные размеры своего LLM Pangu 5.0 , и самая маленькая версия была интегрирована с его операционной системой для смартфонов HarmonyOS. Устройства, работающие на этой системе, включают Huawei Mate 30 Pro 5G .
Samsung, тем временем, разработала Gauss LLM , который используется в Samsung Galaxy AI, работающем в ее флагманском смартфоне Samsung S24. Его функции AI включают в себя живой перевод, преобразование голоса в текст и резюмирование заметок, круг для поиска, а также помощь с фотографиями и сообщениями.
Samsung также перешла на массовое производство полупроводников LPDDR5X DRAM . Эти 12-нанометровые чипы обрабатывают рабочие нагрузки памяти непосредственно на устройстве, позволяя операционной системе телефона быстрее работать с устройствами хранения данных для более эффективной обработки рабочих нагрузок ИИ.
В целом, производители смартфонов прилагают все усилия, чтобы сделать LLM меньше. Вместо 175 миллиардов параметров ChatGPT-3 они пытаются сократить их примерно до двух миллиардов параметров.
Intel и AMD также вовлечены в ИИ на периферии. AMD работает над чипами для ноутбуков, способными локально запускать 30 миллиардов параметров LLM на высокой скорости. Аналогичным образом Intel собрала экосистему партнеров, которая усердно работает над разработкой ПК с ИИ . Эти устройства с поддержкой ИИ могут быть дороже обычных моделей. Но наценка может оказаться не такой высокой, как ожидалось, и, скорее всего, она резко снизится по мере роста внедрения.
«Самая дорогая часть ИИ на периферии — это обучение», — сказал Азофф Data Center Knowledge . «Обученная модель, используемая в режиме вывода, не требует дорогостоящего оборудования для работы».
Он считает, что раннее развертывание, скорее всего, будет проводиться в сценариях, где ошибки и «галлюцинации» не имеют большого значения и где вряд ли будет большой риск ущерба репутации.
Примерами служат усовершенствованные рекомендательные системы, интернет-поиск на базе ИИ и создание иллюстраций или дизайнов. Здесь пользователи должны обнаруживать подозрительные ответы или плохо представленные изображения и дизайны.
Последствия для центров обработки данных для LLM на периферии
Учитывая, что центры обработки данных готовятся к значительному увеличению плотности и потребностей в электроэнергии для поддержки развития искусственного интеллекта, что может означать тенденция LLM на периферии для объектов цифровой инфраструктуры?
В обозримом будущем модели, работающие на периферии, будут продолжать обучаться в центре обработки данных. Таким образом, большой трафик, который в настоящее время обрушивается на центры обработки данных от ИИ, вряд ли уменьшится в краткосрочной перспективе. Но модели, обучаемые в центрах обработки данных, уже меняются. Да, огромные модели от таких компаний, как OpenAI, Google и Amazon, продолжат свое существование. Но более мелкие и более целевые LLM набирают силу.
«К 2027 году более 50% моделей GenAI, используемых предприятиями, будут специфичны для отрасли или бизнес-функции — по сравнению с примерно 1% в 2023 году», — сказал Арун Чандрасекаран, аналитик Gartner, Data Center Knowledge . «Модели предметной области могут быть меньше, менее вычислительно интенсивными и снижать риски галлюцинаций, связанные с моделями общего назначения».
Разработки, которые ведутся для уменьшения размера и интенсивности обработки GenAI, перейдут в еще более эффективные периферийные LLM, которые могут работать на ряде устройств. Как только периферийные LLM наберут обороты, они обещают сократить объем обработки ИИ, который необходимо выполнять в централизованном центре обработки данных. Все дело в масштабе.
На данный момент обучение LLM в значительной степени доминирует над GenAI, поскольку модели все еще создаются или совершенствуются. Но представьте себе сотни миллионов пользователей, использующих LLM локально на смартфонах и ПК, и запросы, которые необходимо обрабатывать через крупные центры обработки данных. В масштабе такой объем трафика может перегрузить центры обработки данных. Таким образом, ценность LLM на периферии может не быть реализована, пока они не станут мейнстримом.
LLM на грани: безопасность и конфиденциальность
Любое взаимодействие с LLM в облаке потенциально подвергает организацию риску нарушения конфиденциальности и потенциального нарушения кибербезопасности.
Поскольку все больше запросов и подсказок делается за пределами предприятия, будут возникать вопросы о том, кто имеет доступ к этим данным. В конце концов, пользователи задают системам ИИ всевозможные вопросы о своем здоровье, финансах и бизнесе.
Для этого пользователи часто вводят персональные данные (PII), конфиденциальные медицинские данные, информацию о клиентах или даже корпоративные секреты.
Переход к более мелким LLM, которые могут либо размещаться в корпоративном центре обработки данных (и, следовательно, не работать в облаке), либо работать на локальных устройствах, является способом обойти многие из текущих проблем безопасности и конфиденциальности, возникающих в связи с широким использованием LLM, таких как ChatGPT.
«Безопасность и конфиденциальность на передовой действительно важны, если вы используете ИИ в качестве личного помощника и собираетесь иметь дело с конфиденциальной информацией, деликатной информацией, которую вы не хотите разглашать», — сказал Азофф.
Хронология Edge LLM
LLM на краю не станут очевидными немедленно – за исключением нескольких специализированных случаев использования. Но тенденция края, похоже, неостановима .
Исследование Forrester по инфраструктурному оборудованию показало, что 67% лиц, принимающих решения по инфраструктурному оборудованию в организациях, внедрили граничный интеллект или находятся в процессе его внедрения. Примерно одна из трех компаний также будет собирать и выполнять анализ ИИ граничных сред, чтобы предоставить сотрудникам более ценную и быструю информацию.
«Предприятия хотят собирать релевантные данные с мобильных устройств, устройств Интернета вещей и других устройств, чтобы предоставлять клиентам релевантную информацию на основе сценариев использования, когда они ее запрашивают или нуждаются в большей ценности», — отметила Мишель Гетц, аналитик по бизнес-аналитике в Forrester Research.
«В течение двух-трех лет мы должны увидеть большое количество программ LLM, работающих на смартфонах и ноутбуках».
Обрезка моделей для достижения более управляемого числа параметров — один из очевидных способов сделать их более осуществимыми на границе. Кроме того, разработчики перемещают модель GenAI с GPU на CPU, уменьшая объем обработки и создавая стандарты для компиляции.
По словам Гетца, наряду с упомянутыми выше приложениями для смартфонов, лидирующими вариантами использования будут те, которые достижимы, несмотря на ограниченные возможности подключения и пропускную способность.
Полевая инженерия и операции в таких отраслях, как коммунальное хозяйство, горнодобывающая промышленность и техническое обслуживание транспорта, уже ориентированы на персональные устройства и готовы к дополнению LLM. Поскольку в таких передовых приложениях LLM есть бизнес-ценность, ожидается, что платить больше за полевое устройство или телефон с поддержкой LLM будет меньшей проблемой.
Широкое использование LLM на периферии потребителями и бизнесом должно подождать, пока цены на оборудование не снизятся по мере роста внедрения. Например, Apple Vision Pro в основном используется в бизнес-решениях, где ценник может быть оправдан.
Другие варианты использования в ближайшем будущем включают управление телекоммуникациями и сетями, умные здания и автоматизацию производства. Более продвинутые варианты использования для LLM на грани, такие как иммерсивная розничная торговля и автономные транспортные средства, должны будут подождать пять лет или больше, по словам Гетца.
«Прежде чем мы увидим расцвет LLM на персональных устройствах, будет наблюдаться рост числа специализированных LLM для конкретных отраслей и бизнес-процессов», — сказал аналитик.
«После того, как они будут разработаны, их будет легче масштабировать для внедрения, поскольку вам не придется обучать и настраивать модель, уменьшать ее и развертывать одновременно».