"Яндекс" представил приложение, которое записывает текст под диктовку

Когда: 30.10.14 (13:17)

На ежегодной конференции для разработчиков «Яндекс» представил технологию по распознаванию и синтезу речи. Она уже была доступна сторонним разработчикам: теперь ей могут пользоваться в мобильном приложении «Яндекс.Диктовка» обычные пользователи, пишет РБК.

Технология распознавания речи Yandex SpeechKit была представлена в прошлом году. Как утверждают в компании, система способна распознавать тексты на любую тематику с точностью 88%, а на географическую тематику – с точностью 95%, что близко к восприятию речи человеком, раскрывает подробности Газета.Ru

С помощью Yandex SpeechKit, можно, в частности, активировать разные команды голосом, переводить речь в текст и наоборот – озвучивать тексты, причем выбирая интонацию, управлять устройством с помощью голоса. Руководитель отдела голосовых технологий и продуктов Денис Филиппов рассказал РБК, что с ее помощью можно создавать голосовые интерфейсы, например «научить» кофеварку готовить напиток по голосовой команде. Объем рынка голосовых технологий Филиппов оценивает в $100 млн в год. Синтез речи, по мнению Филиппова, может найти массу применений, например в озвучивании новостей в мобильных приложениях, в аудиокнигах и т.д.

«Яндекс.Диктовка» демонстрирует действие речевых технологий SpeechKit. Приложение запускается по голосовой команде «Яндекс, записывай!», после чего пользователь может надиктовать своему смартфону или планшету любой текст, а также отредактировать его с помощью голоса и отправить адресату, запостить в соцсети или скопировать в буфер обмена. Итоговую версию текста можно прослушать по команде «Прочитай все».

Кроме того, технология умеет выделять смысловые объекты, то есть выделить в распознанном тексте стандартные понятия, например, дату, время, фамилию или адрес. Это используется, чтобы управлять устройствами простыми фразами, которые не нужно заучивать. Например, для сервиса автоматизированного заказа такси: пользователь голосом заказывает такси, технология переводит речь в текст и выделяет такие объекты, как адрес и время подачи, дальше идет оформление заказа.

Пока система распознает русский и турецкий языки, в планах – английский. Это только демо-версия: распознавать спонтанную речь оно не может, только тексты произвольной тематики от одного человека. Филиппов объясняет, что при расшифровке диалога система должна уметь переключаться на разную тематику, после этого – подключать языковую модель, что сделать оперативно пока сложно.

Затраты на собственную разработку «Яндекс» не раскрывает. Представители компании утверждают, что создали продукт своими силами – без привлечения сторонних специалистов.

#вп