Нейросети генерируют музыку: как это работает и где попробовать самостоятельно

ИИ обучили создавать треки по текстовому описанию

1
Нейросети генерируют музыку: как это работает и где попробовать самостоятельно
Аватар автора

Даша Лейзаренко

больше не слушает настоящую музыку

Страница автора

В последние несколько лет нейросети все сильнее проникают в творческие области. Они уже впечатляюще генерируют тексты и картинки, а теперь пришло время музыки.

В 2023 году показали сразу три алгоритма, которые генерируют музыку по текстовому запросу. Раньше нейросети могли только дополнять уже готовые треки или создавать их на основе заданной мелодии.

Эксперты предрекают, что ИИ упростит работу музыкантам и создателям спецэффектов, но компании опасаются выкладывать в открытый доступ сервисы, обученные на реальной музыке. Рассказываем, что происходит в индустрии и где уже сейчас можно попробовать сгенерировать трек самостоятельно.

Как нейросети создают музыку

«Музыкальные» нейросети обучают на большом объеме аудиофайлов. Их собирают в базу и передают ИИ. Первые результаты будут звучать плохо, но чем больше нейросеть обучается, тем лучше становится звук.

Выучив шаблоны разных композиций, нейросеть может писать похожие мелодии. Многое зависит от базы данных: если обучить ИИ на музыке Элвиса Пресли, то нейросеть будет генерировать только нечто похожее на его песни.

Генерация нот. Обычно нейросети создают музыку в виде последовательности символов. В таком случае результатом генерации будет партитура — последовательность звуков, нот, аккордов. То есть нейросеть создает визуальную репрезентацию произведения, по которому оно воспроизводится.

Этот подход OpenAI использовала в нейросети MuseNet, которая вышла в апреле 2019 года. Ее обучили на большом массиве записей, поэтому она может генерировать композиции и комбинировать разные жанры. Например, способна исполнить Симфонию № 5 Бетховена в стиле Леди Гаги.

Симфония № 5 Бетховена в стиле Леди Гаги, сгенерированная MuseNet

Такой подход ограничен: нейросеть генерирует только ноты, а не разнообразие человеческих голосов, тональностей, выразительности и тонкостей звука, которые важны для музыки.

Генерация аудиосигнала не имеет ограничений символьных генераторов: такие алгоритмы могут создавать любой звук — разнообразный вокал, аудиоэффекты, переходы, а не только последовательность нот. Это требует больших вычислительных способностей для обучения модели.

Проблема в том, что музыка состоит из длинных последовательностей. К примеру, четырехминутная песня в студийном качестве состоит из десятка миллионов значений. Это останавливало разработчиков от создания нейросетей, способных генерировать музыку «с нуля».

Что «музыкальные» нейросети умели раньше

Генерировать музыку по шаблонам. В последние годы появились инструменты, генерирующие музыку по жанрам или настроениям. Они позволяют безо всяких познаний в музыке за несколько секунд создать трек, а затем поменять в нем инструменты или изменить мелодию.

Однако контроля над самим результатом генерации в таких сервисах мало — любой запрос задать не получится, приходится работать с готовыми пресетами.

Разделять дорожки. С помощью нейросетей также научились чисто разделять дорожки в треках: например, чтобы удалить вокал или переместить бас из одной песни в другую. Это упростило создание ремиксов и мэшапов.

Раньше приходилось получать доступ к исходникам треков или глушить частоты, а теперь это делается через программы, например Serato Stems 3.0 или Аudioshake. Эти инструменты помогают диджеям и продюсерам, работающим с семплами.

Пример ремикса пяти популярных песен в Serato Stems 3.0

Создавать бесконечные музыкальные фоны. ИИ также может генерировать фоновую музыку. Например, стартап Endel выпустил приложение, которое в реальном времени создает бесконечные звуковые ландшафты, чтобы слушатель мог сосредоточиться на работе или учебе. Похожий сервис выпустил и «Яндекс». Такая музыка обычно звучит как эмбиент или лоу-фай хип-хоп.

Что «музыкальные» нейросети умеют теперь

В конце января исследователи из Google представили нейросеть MusicLM, которая может генерировать аудио продолжительностью до пяти минут.

Модель генерирует аудиосигнал напрямую. Алгоритм сжимает аудио, отбрасывая биты информации, не имеющие отношения к восприятию музыки. Затем звук генерируется в этом сжатом пространстве, а на выходе перекодируется в нормальное аудио.

MusicLM обучена на 5500 парах аудио с соответствующими текстовыми описаниями. Всего нейросети «скормили» 280 000 часов аудиозаписей. ИИ нельзя попробовать самостоятельно, но компания представила примеры генерации.

Генерировать музыку по описанию — основная функция MusicLM. Она создает треки как по короткому запросу, например «мелодичное техно» или «клуб в 80-х», так и по целому абзацу описания текста.

К примеру, MusicLM создала аудио по такому текстовому описанию: «Саундтрек аркады в быстром темпе и с бодрым ритмом с запоминающимся рифом электрогитары. Музыка повторяется и легко запоминается, но в ней присутствуют неожиданные звуки — удары тарелок или барабанная дробь».

Саундтрек для аркады, сгенерированный MusicLM

Это уже можно попробовать?

Google не планирует открывать публичный доступ к MusicLM из-за возможных проблем с авторским правом — ведь ИИ обучали на музыке, принадлежащей реальным исполнителям. Нейросети, которые генерируют картинки, уже столкнулись с такой проблемой: против Midjourney и Stable Diffusion подали иски художники, на чьих работах обучили эти сервисы. Однако компания выпустила базу данных, на которой разработчики смогут обучить свои нейросети.

Нейросеть также может создавать музыку по скрипту: разработчики сгенерировали аудио, которое начинается как «медитация», переходит к «пробуждению», а затем к «пробежке». Так можно описать любую историю, а нейросеть сделает переходы в указанных тайм-кодах.

Музыка, созданная по скрипту: time to meditate — time to wake up — time to run — time to give 100%

Генерировать музыку по вокалу может сервис SingSong, который компания Google создала на основе MusicLM. Он работает как караоке наоборот: обычно люди поют под трек, но в этом случае песня создается на основе голоса.

Разработчики говорят, что сервис позволит любому человеку, умеющему петь, создавать новую музыку с богатым инструментарием. Сам алгоритм пока нельзя попробовать, но можно послушать примеры генерации.

Демo SingSong

Генерировать звуковые эффекты умеет другая нейросеть AudioLDM, использующая модель скрытой диффузии. На ее основе работает Stable Diffusion. Текстовый запрос кодируется предварительно обученной языковой моделью. В зависимости от того, что указано в запросе, модель генерирует сжатый сигнал с помощью диффузионного генератора, который затем преобразуется в звуковую волну.

Нейросеть нельзя попробовать самостоятельно, но компания представила примеры генерации. Так, AudioLDM сгенерировала голос человека под водой, сражение космических кораблей, мяуканье кота, звук проезжающего автомобиля.

Причем AudioLDM улавливает тонкости материалов: звук нарезки помидоров на деревянной доске отличается от звука нарезки картошки на металлическом столе. AudioLDM также генерирует звук по спектрограммам.

Голос мужчины под водой
Сражение космических кораблей
Мяуканье кота
Звук проезжающего автомобиля
Звук нарезки помидоров на деревянной доске
Звук нарезки картошки на металлическом столе

Какие «музыкальные» нейросети можно попробовать уже сейчас

Большинство сервисов пока не могут генерировать музыку по текстовому запросу. Google и разработчики AudioLDM не планируют открывать доступ к своим моделям, а OpenAI и другие разработчики выкладывают код на GitHub, который не смогут попробовать люди без знаний программирования.

Если умеете программировать

JukeBox. OpenAI выложила в открытый доступ код, который позволяет генерировать полноценные песни. Для этого нужно задать жанр, имя исполнителя и текст песни. ИИ также может делать полноценные треки на основе 12-секундных семплов или генерировать тексты несуществующих песен. Примеры сгенерированных треков можно посмотреть здесь.

Moûsai. Нейросеть c открытым кодом, которая работает по принципу скрытой диффузии, как Stable Diffusion. По текстовому описанию генерирует стереомузыку высокого качества на частоте 48 кГц — это соответствует студийному качеству.

Подобрали несколько сервисов — генераторов музыки, которые доступны в удобных интерфейсах.

Riffusion. Создает музыку не по тексту, а по картинке. Работает это так: вы придумываете текстовый запрос, по нему генерируется спектрограмма, а потом она конвертируется в аудио. Нейросеть обучали на связках «аудио — текстовое описание», поэтому она может генерировать афробит, джаз, кей-поп и любые другие жанры.

Riffusion позволяет интересно миксовать жанры: например, если написать «бас стука печатной машинки», то нейросеть превратит звук печатания в музыку. Скачать треки нельзя, только поделиться ими в соцсетях. Сгенерировать что-то пригодное для использования не получится, но зато можно надолго залипнуть.

Главная — и единственная — страница Riffusion. Прописывайте запрос в поле и жмите Play. Источник: riffusion.com
Главная — и единственная — страница Riffusion. Прописывайте запрос в поле и жмите Play. Источник: riffusion.com

Magenta. Набор демоинструментов и мини-игр, созданных на основе открытого кода проекта Google, который занимается машинным обучением. Практического применения у них нет, они просто демонстрируют возможности машинного обучения. Например, DrumBot играет на барабанах на основе мелодии, набранной пользователем через клавиатуру, а MidiMe создает музыку на основе загруженного трека.

Есть и более фановые инструменты: в Runn уровни игры генерируются на основе играющего трека, в Sornting нужно составлять мелодии в интерполяцию, а Piano Genie позволяет почувствовать себя пианистом.

Чем сильнее притворяешься пианистом, тем лучше звучит мелодия. Источник: piano-genie.glitch.me
Чем сильнее притворяешься пианистом, тем лучше звучит мелодия. Источник: piano-genie.glitch.me

Mubert. Сервис специализируется на генерации фоновой музыки для роликов на «Ютубе» или коротких рилсов. Можно выбирать из предложенных жанров и настроений, например чиллвейв или эмбиент. Можно прописать свой запрос текстом, но дэт-метал или джаз-фьюжн нейросеть сгенерировать не сможет — получится софт-рок и обычный джаз.

После регистрации бесплатно можно сгенерировать до 25 треков в месяц длительностью до 25 минут. Чтобы их скачать, нужно добавить ссылку на канал, где вы будете их использовать.

Поле, где можно прописать запрос. Источник: mubert.com
Поле, где можно прописать запрос. Источник: mubert.com

Soundraw. Простой генератор треков без вокала, где можно выбрать настроение, жанр, тему, темп и инструменты, а также задать продолжительность трека. Есть редактор, позволяющий изменять мелодию, темп, ритм, тональность. Сгенерировать по текстовому запросу нельзя.

Само создание музыки бесплатное, но чтобы скачивать ее, нужно платить [[16.99USD:1243]] в месяц. Оплатить можно с помощью «Пэйпэл» или международными картами «Виза» и «Мастеркард». По подписке количество генераций и скачиваний музыки не ограничено. Аналогичный популярный сервис — Boomy.

Интерфейс Soundraw. Источник: soundraw.com
Интерфейс Soundraw. Источник: soundraw.com

Avia.AI. Генерирует музыку в выбранной тональности по заготовленным жанрам или загруженному треку. Трек можно отредактировать прямо в сервисе — удалить или добавить инструмент, растянуть или сжать партию, изменить темп, добавить реверб или дилэй.

Бесплатно можно скачать три трека длительностью до трех минут. Чтобы скачивать до 200 треков и получить на них авторские права, придется платить 49 €⁣ (3860 ₽) в месяц. Такую музыку можно использовать в фильмах, сериалах или видеоиграх, а не только для роликов на «Ютубе».

Редактор аудио в Avia.AI. Источник: avia.ai
Редактор аудио в Avia.AI. Источник: avia.ai

Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult.

Пробовали генерировать музыку в нейросетях? Что получалось?
Комментарии проходят модерацию по правилам журнала
Загрузка

Сообщество