Baidu представила технологию расшифровки речи «SwiftScribe»
12 марта лаборатория китайского интернет-гиганта Baidu «SVAIL» представила новый продукт «SwiftScribe» — веб-приложение, которое позволяет расшифровывать и преобразовывать речь в печатный текст.
SwiftScribe распознает файлы в формате WAV и MP3. Расшифровка начинается сразу после загрузки файла и занимает всего десять секунд, если длина записи не превышает 30 секунд. Одноминутный файл программа расшифровывает 30 секунд. Максимальная длина записи не должна превышать час, и на нее у SwiftScribe уйдет около 20 минут.
Приложение не всегда работает идеально: SwiftScribe иногда пропускает слова и делает ошибки в пунктуации. Программа предлагает пользователям внести свои корректировки в транскрипт в специальном поле. На сегодняшний момент программа распознает только английский язык.
Один из разработчиков программы Карл Кейс рассказал, что за последние десять лет была проделана большая работа в усовершенствовании SwiftScribe: еще недавно вероятность неправильной интерпретации составляла 80%, сегодня вероятность ошибки снизилась до 8%.
По словам менеджера проекта компании Baidu Тянь Ву, SwiftScribe в будущем может сократить время на расшифровку аудиозаписи в 1,67 раза.
В настоящий момент приложение доступно бесплатно, но компания надеется монетизировать проект.
Недавно Baidu также представила другой продукт, алгоритм «Deep Voice», который умеет синтезировать человеческую речь и воспроизводить тексты на английском и китайском языках.