Новая нейросеть может генерировать звук из любых данных

Она перевернет кинематограф и индустрию видеоигр.
Tero Vesalainen/Shutterstock/FOTODOM

В последние годы создано немало генеративных моделей, способных написать аудиотрек по текстовому запросу, некоторые из них доступны для свободного использования в интернете.

Исследователи из Гонконгского университета науки и технологий недавно представили AudioX — нейросеть для создания высококачественных аудио- и музыкальных записей на основе входных данных любого типа — текста, видео, изображения, музыки и аудио. Разработка описана в статье на сервере препринтов arXiv.

«Наше исследование исходит из фундаментального вопроса в области искусственного интеллекта: как интеллектуальные системы могут достичь унифицированного кросс-модального понимания и генерации? Человеческое творчество — это целостный процесс, в котором информация от разных сенсорных каналов естественным образом объединяется мозгом. Традиционные системы часто полагались на специализированные модели, не способные уловить и синтезировать эти внутренние связи между модальностями», — пояснил специалист по машинному творчеству Вэй Сюэ, ведущий автор статьи.

Главная цель исследования заключалась в разработке унифицированной системы представления данных, позволившей одной модели обрабатывать информацию из разных модальностей (текстов, изображений, видео и аудио) вместо комбинирования отдельных моделей, каждая из которых работает только с одним типом данных.

«Мы стремимся к тому, чтобы ИИ-системы формировали кросс-модальные концептуальные сети, подобные человеческому мозгу. AudioX представляет собой смену парадигмы, направленную на решение двойной задачи концептуального и временного согласования. Другими словами, она призвана одновременно отвечать на вопросы "что" (концептуальное соответствие) и "когда" (временное соответствие). Наша конечная цель — создание глобальных моделей, способных предсказывать и генерировать мультимодальные последовательности, остающиеся согласованными с реальностью», — подчеркнул Сюэ.

Новая модель на основе диффузионного трансформера может генерировать высококачественные аудио- и музыкальные треки, используя любые входные данные в качестве руководства к действию. Эта способность преобразовывать «что угодно» в звук открывает новые возможности для индустрии развлечений и творческих профессий. Например, пользователи смогут создавать музыку, подходящую под конкретную визуальную сцену, или комбинировать разные входные данные (тексты и видео) для генерации желаемых треков. 

«AudioX построена на архитектуре диффузионного трансформера, но ее отличает стратегия мультимодального маскирования. Это кардинально меняет подход к тому, как машины учатся понимать связи между разными типами информации, — объяснил ученый. — Скрывая элементы входных данных во время обучения (например, удаляя фрагменты видео, текстовые токены или сегменты аудио) и обучая модель восстанавливать недостающую информацию из других модальностей, мы создаем унифицированное пространство представлений».

AudioX — одна из первых моделей, объединяющих языковые описания, визуальные сцены и аудио-паттерны, улавливая их семантику и ритмическую структуру. Ее уникальный алгоритм позволяет устанавливать ассоциации между разными типами данных, подобно тому, как человеческий мозг интегрирует информацию, полученную от разных органов чувств.

В первых тестах модель продемонстрировала способность создавать высококачественные аудио- и музыкальные треки, успешно интегрируя тексты, видео, изображения и звук.

«AudioX поддерживает разнообразные задачи в одной архитектуре — от преобразования текста/видео в аудио до восстановления аудио и завершения музыки, превосходя системы, которые обычно специализируются только на конкретных задачах», — заметил Сюэ.

По его мнению, модель может найти применение в киноиндустрии, создании контента и разработке игр: «Представьте, что режиссеру больше не понадобится художник по звуковым эффектам для каждой сцены. AudioX сможет автоматически генерировать звук шагов по снегу, скрип дверей или шелест листьев, основываясь только на видеозаписи. Точно так же блогеры смогут мгновенно добавлять идеальную фоновую музыку к своим танцевальным видео в TikTok, а тревел-влогеры — дополнять ролики аутентичными звуками местности — все это по запросу».

Следующим этапом будет развитие нейросети как интенсивное, так и экстенсивное. Разработчики хотят, чтобы она генерировала более длинные аудиофрагменты, кроме того, они намерены в ходе обучения модели интегрировать в нее эстетическое восприятие человека.