Как работают сервисы автоматического создания субтитров
Результат преобразования речи в текст системами общего назначения и специализированными сервисами напоминает испорченный телефон.
Эта проблема стала особо актуальной в связи с изменениями в законодательстве, касающимися вещания телеканалов. В статье мы рассмотрим сервисы для автоматического создания субтитров и приведем результаты теста среди них.
ЗАЧЕМ РОССИЙСКОМУ ТВ СУБТИТРЫ?
С 1 января 2020 года телеканалы обязали обеспечить доступность транслируемого контента для инвалидов по слуху в объеме не менее 5% от общего недельного трафика. Один из самых явных способов исполнения требований закона — использование субтитров. Идея логичная, но, как и большинство подобных идей, она имеет серьезные препятствия для применения на практике.
Во-первых, ГОСТ, регламентирующий создание и демонстрацию субтитров, предъявляет очень высокие требования к конечному продукту. Для выполнения такой работы должны привлекаться узкопрофильные специалисты с большим опытом.
Во-вторых, качество распознавания голоса также может внести коррективы в планы его использования.
Мы решили проверить, насколько имеющиеся на рынке продукты подходят для автоматического создания субтитров.
Существующие системы можно разделить на два класса: общего назначения и специализированные. Первые решают разнообразные задачи, в том числе связанные с преобразованием речи в текст. Вторые разработаны непосредственно для создания субтитров.
СИСТЕМЫ ОБЩЕГО НАЗНАЧЕНИЯ
Из систем общего назначения, поддерживающих русский язык, мы обратили внимание на наиболее известные.
Google Speech-to-Text
Это облачное решение для конвертации речи в текст на основе нейронных сетей. Система автоматически распознает и определяет более 120 языков, достаточно точно транскрибирует имена собственные и числительные, сама расставляет знаки препинания. В ней есть голосовое управление. Решение работает с несколькими предварительно созданными моделями распознавания. Они привязаны к конкретным ситуациям. Это может быть, например, показ баскетбольного матча по ТВ, звонок клиента в банковскую службу поддержки с вопросом о кредитной карте, обращение пользователя к умному телевизору с просьбой запустить ТВ-эпизод.
Службы речи от Microsoft
Обладает широким диапазоном возможностей распознавания и создания речи в режиме реального времени, включая транскрибирование речи, преобразование текста в речь и наоборот, а также перевод речи. Система адаптирует базовые модели с учетом конкретных акустических и языковых данных, формирует рейтинг наиболее распространенных слов.
Пользователям доступна настройка акустической модели — классификатора, сопоставляющего краткие звуковые фрагменты с одной из нескольких фонем или звуковыми единицами каждого из представленных языков (более 40). Это помогает более точно распознать речь в нетипичных ситуациях, например в шумной среде.
Yandex SpeechKit
Распознает аудио или озвучивает любой текст на нескольких языках: русском, английском и турецком. Именно на основе SpeechKit работает «Алиса» — голосовой помощник «Яндекса».
В основном система фокусируется на распознавании коротких фрагментов и, хотя это явно и не обозначено в документации, в первую очередь предназначена для создания голосовых помощников.
СПЕЦИАЛИЗИРОВАННЫЕ СИСТЕМЫ
Trint
Это сервис автоматического транскрибирования аудио- и видеофайлов на основе искусственного интеллекта (ИИ). Платформа решает ряд профессиональных задач, например транскрибирование записей встреч, интервью или переговоров. Отличительная особенность — функция проверки и редактирования результата, который можно сравнить с оригинальной записью. Система поддерживает достаточно много аудио- и видеоформатов, а также форматов экспорта.
Заказчики вправе запускать Trint из облака либо инсталлировать на своих компьютерах. Разработчик отмечает, что система может быть полезна в таких отраслях, как маркетинг, СМИ, наука, юриспруденция, судебное производство, законотворчество и здравоохранение. Пользователям доступна также веб-версия и приложение для iOS.
AppTek Subtitling and Captioning
Данное решение управляет рабочим процессом создания титров и субтитров в режиме реального времени или на стадии постпродакшена. AppTek применяет нейронные сети для анализа и расшифровки текстовых данных и речи, что существенно повышает точность перевода. Отметим, что сервису доступна интеллектуальная линейная сегментация файлов (линейное членение речевого потока на составляющие отрезки — прим. ред.) и создание метаданных.
Продукт от AppTek имеет много областей применения (кол-центры, ретейл, госорганизации, адаптация людей с ограниченными возможностями), его несложно кастомизировать. Количество распознаваемых языков и диалектов — более 30.
Speechmatics
Основанная на ИИ система превращает голосовые данные в текст для последующего анализа в реальном времени или при загрузке аудио- или видеофайлов. Диапазон форматов импорта и экспорта довольно широкий. Отличительная особенность — оптимизированная работа с акцентами языков, а также с набором звуков и пользовательским словарем, который можно пополнить контекстно зависимыми словами. Это помогает заранее определить обстоятельства разговора. Кроме того, система способна идентифицировать говорящего.
Платформу от Speechmatics можно запускать из облака или инсталлировать на компьютеры предприятия. Она подойдет для кол-центров, СМИ, телерадиовещателей. В платной версии предусмотрена интеграция с интерфейсом прикладного программирования.
А теперь перейдем непосредственно к тесту платформ.
ПРОВERКА НА ТОЧНОСТЬ
Для сравнения результатов мы выбрали фрагменты из фильма «Служебный роман». Дело в том, что в нем много разговоров, в том числе на фоне музыки и постороннего шума, но при этом не используются специальные подавляющие эффекты.
Во время исследования мы использовали методику, предложенную Европейским вещательным союзом. Она основана на метрике Word Error Rate (WER). По сути, WER — это количество ошибок, разделенное на общее количество слов. Чтобы получить искомое значение, нужно сложить такие параметры, как замены, вставки и удаления, которые встречаются в последовательности распознанных слов. Полученное число делим на общее количество слов, которое высчитывается с помощью суммирования замен, удалений и правильных слов. Результатом является WER.
· Замена происходит, когда слово заменяется другим
· Вставка обозначает добавление слова, которое не было сказано
· Удаление происходит, когда слово полностью исключается из транскрибирования
Формула метрики такова:
Низкое значение WER указывает на то, что система точнее распознает речь, и наоборот.
А теперь самое интересное — как системы на практике справились с задачей транскрибирования? Для эксперимента мы выбрали речевой фрагмент из того же фильма.
Системы транскрибировали фрагменты следующим образом:
· Службы речи от Microsoft (0.393544 WER)
· Trint (0.399038 WER)
· Speechmatics (0.409341 WER)
· Yandex SpeechKit (0.554602 WER)
· Google Speech-to-Text (0.564904 WER)
· AppTek (0.812500 WER)
СТОИМОСТЬ СЕРВИСОВ
Назначается за единицу времени: чем длиннее исходный медиафайл, тем больше заплатит пользователь. Но здесь есть и исключения. К тому же почти все платформы предлагают бесплатные опции. Оговоримся сразу, что ниже мы обозначили только порядок цен, конечная стоимость услуги будет зависеть от ваших индивидуальных задач и количества пользователей.
Итак, сервис Microsoft готов бесплатно транскрибировать 5 часов аудио для 1 одновременного запроса, далее от 62,5 рублей за час аудио для 20 одновременных запросов.
Стартовый пакет от Trint начинается от $48 в месяц. При этом в течение года вы можете преобразовать не более 84 файлов, зато любой длительности.
Yandex SpeechKit попросит примерно 36 рублей за 60 минут аудио. В качестве бонуса облачный сервис дарит 4000 рублей на 2 пробных месяца.
Пользователи платформы Google смогут транскрибировать первые 60 минут бесплатно, далее придется заплатить $0,004 за каждые 15 секунд.
AppTek и Speechmatics не раскрывают прайсы на своих сайтах. Для получения ценового предложения необходимо отправить запрос.
ВЫВОДЫ
Лидерами рейтинга стали системы от Microsoft и Trint. Они показали самое низкое значение WER.
Невысокая точность речевого распознавания системой «Яндекса» объясняется тем, что решение рассчитано в первую очередь на голосовые помощники. Удивили относительно низкие показатели Google. Возможно, компания уделяет меньше внимания региональным языкам по отношению к английскому.
Близкий по значению индекс WER лидирующей тройки, скорее всего, говорит о том, что разработчики используют очень близкие подходы/модели. Хотя вполне возможен и тот факт, что дело в наборе тестовых данных, на которых они тренируются. Если используются одни и те же открытые наборы данных, то результаты могут быть похожими.
Тем не менее все инструменты, даже лидеры рейтинга, не подходят для субтитрирования ТВ-контента в полностью автономном режиме. Ясно, что для получения более качественного результата необходима специализация именно на телевизионных субтитрах. Разработчики больше сосредоточены на других сценариях применения своих сервисов.
Платформам еще только предстоит научиться не обращать внимание на сопутствующую звуковую завесу (музыку, окружающие шумы), чтобы безошибочно вычленять речь из общего аудиопотока и преобразовывать ее в текст. Следующим важным шагом может стать автоматическая расстановка пунктуации. В общем, разработчикам еще есть, над чем поломать голову.