Представлен новый метод настройки для приложений Spark SQL

Прочитано: 353 раз(а)


Spark SQL — это модуль Spark для обработки структурированных данных. Он широко используется в промышленности, но его производительность сложно настроить.

Существующие методы настройки машинного обучения сложно применять на практике из-за больших временных затрат и невозможности адаптироваться к изменениям объема обрабатываемых данных.

Для решения этих проблем исследовательская группа под руководством профессора Ю. Жибиня из Шэньчжэньского института передовых технологий (SIAT) Китайской академии наук предложила экономичный метод автоматической оптимизации конфигурации под названием «Автоматическая настройка онлайн-конфигурации с низкими накладными расходами». (LOCAT), что может сократить время оптимизации и повысить производительность Spark SQL.

Результаты были опубликованы на SIGMOD 2022, международном форуме исследователей баз данных, практиков, разработчиков и пользователей. Соответствующий документ можно найти в материалах Международной конференции по управлению данными 2022 года.

Сначала исследователи разработали методы анализа чувствительности параметров запросов и конфигурации для LOCAT. Запросы, нечувствительные к параметрам конфигурации, были идентифицированы и удалены из заданной рабочей нагрузки при сборе обучающих выборок.

«Для остальных запросов LOCAT рассчитал коэффициенты корреляции для определения важных параметров конфигурации», — сказал профессор Ю. «Затем он применяет анализ основных компонентов ядра, чтобы уменьшить объем поиска параметров конфигурации».

Наконец, исследователи разработали байесовскую оптимизацию для LOCAT, которая учитывает размер набора данных для поиска оптимальной конфигурации, чтобы ее производительность можно было автоматически оптимизировать в зависимости от размера набора данных.

Экспериментальные результаты на кластере ARM (кластер серверов для обработки больших данных, в котором каждый сервер использует ЦП на основе инструкции ARM) показали, что LOCAT ускорил процедуры оптимизации современных подходов как минимум на 4,1x и до 9,7x. Кроме того, LOCAT улучшил производительность приложений как минимум в 1,9–2,4 раза. На кластере x86 LOCAT показал аналогичные результаты на кластере ARM.

Представлен новый метод настройки для приложений Spark SQL



Новости партнеров