Ускорение темпов машинного обучения

Машинное обучение во многом похоже на эрозию.

Данные бросаются в математическую модель, как песчинки, разлетающиеся по каменистому ландшафту. Некоторые из этих зерен просто плывут, практически не оказывая воздействия. Но некоторые из них оставляют свой след: тестирование, укрепление и, в конечном счете, изменение ландшафта в соответствии с присущими ему закономерностями и колебаниями, возникающими с течением времени.

Эффективно? Да. Эффективный? Не так много.

Рик Блюм, профессор электротехники и вычислительной техники Роберта В. Виземана в Университете Лихай, стремится повысить эффективность методов распределенного обучения, которые становятся ключевыми для современного искусственного интеллекта (ИИ) и машинного обучения (МО). По сути, его цель состоит в том, чтобы передавать гораздо меньше фрагментов данных без ухудшения общего воздействия.

В статье «Распределенное обучение с разреженными градиентными различиями», опубликованной в специальном выпуске журнала IEEE Journal of Selected Topics in Signal Processing , посвященном машинному обучению, Блюм и его сотрудники предлагают использовать «метод градиентного спуска с разрежением и коррекцией ошибок» или GD-SEC для повышения эффективности связи машинного обучения, проводимого в беспроводной архитектуре «рабочий-сервер». Номер опубликован 17 мая 2022 года.

«Проблемы распределенной оптимизации возникают в различных сценариях, которые обычно основаны на беспроводной связи, — говорит он. «Задержка, масштабируемость и конфиденциальность — фундаментальные проблемы».

«Для решения этой проблемы были разработаны различные алгоритмы распределенной оптимизации, — продолжает он, — и одним из основных методов является использование классического GD в архитектуре «рабочий-сервер». В этой среде центральный сервер обновляет параметры модели после агрегирования данных, полученных от всем воркерам, а затем транслирует обновленные параметры обратно воркерам.Но общая производительность ограничена тем, что каждый воркер должен все время передавать все свои данные.При обучении глубокой нейронной сети это может быть порядка 200 МБ с каждого рабочего устройства на каждой итерации. Этот этап связи может легко стать серьезным узким местом в общей производительности, особенно в федеративных системах обучения и периферийных системах искусственного интеллекта».

По словам Блюма, благодаря использованию GD-SEC требования к связи значительно снижаются. В этом методе используется подход к сжатию данных, при котором каждый работник устанавливает малые компоненты градиента равными нулю — эквивалент обработки сигналов, позволяющий не заниматься мелкими вещами. Затем рабочий только передает на сервер оставшиеся ненулевые компоненты. Другими словами, значимые, пригодные для использования данные — это единственные пакеты, запущенные в модели.

«Существующие методы создают ситуацию, когда каждый рабочий требует больших вычислительных затрат; GD-SEC относительно дешев, поскольку в каждом раунде требуется только один шаг GD», — говорит Блюм.

Среди сотрудников профессора Блюма в этом проекте его бывший студент Ичэн Чен, доктор философии, ныне инженер-программист в LinkedIn; Мартин Такач, доцент Университета искусственного интеллекта имени Мохамеда бен Заида; и Брайан М. Сэдлер, пожизненный член IEEE, старший научный сотрудник армии США по интеллектуальным системам и сотрудник исследовательской лаборатории армии.