Тестирование ИИ для очистки подкаста

В поисках идеального решения для очистки аудиозаписей от посторонних шумов, я решил провести серию тестов с использованием нескольких популярных сервисов. Целью было не только проверить эффективность каждого инструмента, но и понять, как технологии искусственного интеллекта могут помочь в создании идеального аудио для подкастов и других медиапроектов.

Для начала давайте послушаем, как звучит исходное аудио без обработки. В нем я рассказываю о новом телеграм-боте для школьников, который сделал на днях.

Запись сделана на моем балконе с использованием программы Adobe Audition и любительского стриминового USB-микрофона Haylou GX1.

1. Audo Studio

Первым на тестирование попал Audio Studio. Интерфейс платформы оказался интуитивно понятным, а результаты — весьма хорошими. Запись звучала чисто, удалось избавить от посторонних шумов. Но всё равно заметно, что запись сделана не в студии, а дома – слышится небольшое эхо. Послушайте и сравните с оригиналом:

2. Adobe Podcast Enhance

Следующим кандидатом был сервис Adobe Podcast Enhance. После загрузки исходного файла сервис обработал аудио, заметно уменьшив фоновые шумы, однако не так чисто, как предыдущий сервис. Кроме того, этот сервис немного смягчает произношение буквы “р”, добавляя речи своеобразный “английский” акцент:

3. AI Coustics

AI Coustics также неплохо справился с очисткой голоса, но оставил немного посторонних шумов в самом начале и конце записи. Видимо, он подумал, что это часть моей речи. Также он не захотел работать в браузере Safari, но в Chrome он запустился без проблем. А еще AI Coustics – единственный сервис из протестированных, который сконвертировал формат исходного файла из WAV в MP3.

4. Adobe Audition с пресетом Podcast Voice

Использование Adobe Audition с пресетом Podcast Voice дало мне возможность сравнить специализированные инструменты с более универсальным редактором. Результаты лично мне нравятся. В этом случае мой голос сохранил естественность. Это важно, когда делаешь такой контент как подкасты или интервью:

5. Генерация голоса на ElevenLabs

Завершающим этапом тестирования стала генерация озвучки исходного текста на платформе ElevenLabs с использованием клона моего голоса. Для клонирования голоса достаточно около 30 секунд людей запиши с голосом человека и платный аккаунт, который стоит 5 долларов в месяц. Результат такой, что с таким темпом и манерой речи лучше записывать аудиокниги или короткие рассказы, а не более энергичный контент вроде подкастов. В любом случае, если не прислушиваться слишком внимательно, созданная копия моего голоса звучит убедительно и относительно естественно, что открывает новые возможности для использования искусственного интеллекта в медиапроизводстве.

Тестирование различных сервисов показало, что современные технологии ИИ способны значительно упростить процесс производства мультимедийного контента. Если раньше нужно было арендовать студии и дорогое оборудование, то с каждым годом порог входа в контент-продакшн снижается и достаточно вполне простого любительского оборудование, чтобы запустить собственное производство контента. Наличие протестированных каналов показывает, что уже есть спрос на это.

От оптимизации внимания до тестирования агентов: что стоит читать про ИИ на этой неделе

Лёгкие модели, агентный ИИ и память для роботов: что важно из мира ИИ этой недели

От Claude до Qwen 3.5: практические новости недели для тех, кто строит ИИ

От нулевых потерь RAG до «суточных шепотов»: что сейчас важно инженеру ИИ

Основные методы проверки фактов с помощью ИИ

Искусственный интеллект и медийная грамотность

Как оценить прозрачность онлайн издания?

Как оценить прозрачность газеты?

Технические требования Instagram: что нужно учесть перед запуском рекламы

Как писать идеальные промпты для Nano Banana Pro с помощью ChatGPT

Рекомендации OpenAI для правильного составления запросов для моделей рассуждения

Использование Google Sheets для подготовки данных к анализу и создания сводных таблиц

Провел эксперимент по вайбкодингу с 7 нейронками: 6 писали код, а последняя оценила их работу и предложила свой вариант

Подкаст о подкастах: разговор с Джамшедом Маруповым

Как принимать решения осознанно и эффективно – обсуждаем в подкасте

Как медиа формируют наше восприятие миграции (подкаст на английском и русском)

Что должен знать и уметь специалист по инфографике?

Ресурсы для создания мультимедийного материала

Пример масштабируемой инфографики “Когнитивные искажения”

Аудитория Facebook в Таджикистане составляет только 6,8%