Использование архитектуры GAN для восстановления сильно сжатых музыкальных файлов

За последние несколько десятилетий ученые-компьютерщики разработали все более передовые технологии и инструменты для хранения больших объемов музыки и аудиофайлов в электронных устройствах. Особой вехой для хранения музыки стала разработка технологии MP3 (т. е. MPEG-1 Layer 3) — метода сжатия звуковых последовательностей или песен в очень маленькие файлы, которые можно легко хранить и передавать между устройствами.

Кодирование, редактирование и сжатие медиафайлов, включая файлы PKZIP, JPEG, GIF, PNG, MP3, AAC, Cinepak и MPEG-2, осуществляется с использованием набора технологий, известных как кодеки. Кодеки — это технологии сжатия с двумя ключевыми компонентами: кодером, который сжимает файлы, и декодером, который их распаковывает.

Существует два типа кодеков, так называемые кодеки без потерь и кодеки с потерями. Во время распаковки кодеки без потерь, такие как кодеки PKZIP и PNG, воспроизводят тот же самый файл, что и исходные файлы. С другой стороны, методы сжатия с потерями создают факсимиле исходного файла, который звучит (или выглядит) как оригинал, но занимает меньше места на электронных устройствах .

Аудиокодеки с потерями в основном работают, сжимая цифровые аудиопотоки, удаляя некоторые данные и затем распаковывая их. Как правило, людям сложно или невозможно понять разницу между исходным и распакованным файлом.

Однако когда кодеки с потерями используют высокие коэффициенты сжатия, они могут вносить искажения и заметно изменять аудиосигналы . В последнее время ученые-компьютерщики пытаются преодолеть это ограничение кодеков с потерями и повысить качество сжатых файлов с помощью методов глубокого обучения.

Исследователи из Sony Computer Science Laboratories (CSL) недавно разработали новый метод глубокого обучения для улучшения и восстановления качества сильно сжатых песен и аудиозаписей (то есть аудиофайлов , сжатых кодеками с потерями с высокой степенью сжатия). Этот метод, представленный в статье, предварительно опубликованной на arXiv, основан на генеративно-состязательных сетях (GAN), моделях машинного обучения, в которых две нейронные сети «соревнуются», чтобы делать все более точные или надежные прогнозы.

«Во многих работах решалась проблема улучшения звука и удаления артефактов сжатия с использованием методов глубокого обучения », — написали в своей статье Стефан Латтнер и Хавьер Нистал. «Однако лишь несколько работ посвящены восстановлению сильно сжатых аудиосигналов в музыкальной области. В этом исследовании мы тестируем стохастический генератор для архитектуры генеративно-состязательной сети (GAN) для этой задачи».

Как и другие GAN, модель, созданная Латтнером и Нисталом, состоит из двух отдельных моделей, известных как «генератор (G)» и «критик (D)». Генератор получает фрагмент музыкального аудиосигнала, сжатого в формате MP3, представленный в виде спектрограммы (т. е. визуальное представление частот спектра аудиосигнала).

Генератор постоянно учится создавать восстановленную версию исходного сигнала меньшего размера. Между тем, критический компонент архитектуры GAN учится различать исходные, высококачественные файлы и восстановленные версии, таким образом выявляя различия между ними. В конечном счете, информация, собранная критиком, используется для улучшения качества восстановленных файлов, гарантируя, что музыкальные или звуковые данные, присутствующие в восстановленных файлах, максимально соответствуют оригиналу.

Латтнер и Нистал оценили свою архитектуру на основе GAN в серии тестов, целью которых было определить, может ли их модель улучшить качество входных данных MP3 и генерировать сжатые образцы более высокого качества и ближе к исходному файлу, чем созданные другие базовые модели для сжатия звука. Их результаты были очень многообещающими, поскольку они обнаружили, что восстановление модели сильно сжатых файлов MP3 (16 кбит / с и 32 кбит / с), как правило, лучше, чем исходные сжатые файлы, поскольку они звучали лучше для опытных слушателей. С другой стороны, при использовании более слабых скоростей сжатия (64 кбит/с в моно) команда обнаружила, что их модель дает несколько худшие результаты, чем базовые инструменты сжатия MP3.

«Мы проводим обширную оценку различных экспериментов, используя объективные показатели и тесты прослушивания», — сказали Латтнер и Нистал. «Мы обнаружили, что модели могут улучшить качество аудиосигналов по сравнению с версиями MP3 для 16 и 32 кбит/с и что стохастические генераторы способны генерировать выходные сигналы, более близкие к исходным сигналам, чем у детерминированных генераторов».

В рамках своего исследования исследователи также показали, что их архитектура может успешно генерировать и добавлять реалистичный высокочастотный контент, улучшающий качество звука сжатых песен. Сгенерированное содержимое включало ударные элементы, певческий голос, производящий шипящие или взрывные звуки (т. е. звуки «с» и «т»), и звуки гитары.

В будущем созданная ими модель может помочь значительно уменьшить размер музыкальных файлов MP3, не изменяя их содержание и не создавая легко заметных ошибок. Это может иметь серьезные последствия для хранения и передачи музыки как в потоковых приложениях (например, Spotify, Apple Music и т. д.), так и в современных электронных устройствах, включая смартфоны, планшеты и компьютеры.