W3C завершила разработку технологии VoiceXML 3.0

Среда, 14 декабря 2005 г.

Следите за нами в ВКонтакте, Телеграм'e и Twitter'e

W3C (World Wide Web Consortium), устанавливающий основные стандарты для Интернета, закончил разработку проекта по важной технологии VoiceXML 3.0, позволяющей осуществлять голосовую идентификацию. Хотя обычно работу с голосовыми данными связывают с голосовыми командами, потенциально это позволит увеличить скорость и надежность онлайновых сделок. Некоторые крупные интернет-фирмы даже используют подобные технологии для подтверждения заказов и идентификации клиентов. Многие, однако, начинают сомневаться в безопасности и надежности подобных сделок из-за роста мошенничества и воровства идентификационных данных. Процент ошибок составляет около 1-2%, что недопустимо для надежных деловых сделок.
W3C не создает фактическое ПО, а разрабатывает стандарты. Сейчас у них есть рабочий проект, сообщил Джеймс Ларсон, сопредседатель рабочей группы голосовых бразеров. Стандарт также затронул проблему расширения функциональных возможностей Speech Synthesis Markup Language (SSML) на определенные языки, включая материковый китайский, японский и корейский. SSML важен, поскольку он позволяет разработчикам ПО управлять речью от высоты звука до громкости и произношения. Это дает возможность ПО различать правильные тоны и высоты, критические с лингвистической точки зрения, поскольку незначительное изменение в произношении может изменить смысл целого слова.
SSML также используется для обозначения областей языка с различным местным диалектом. Он основан на JSpeech Grammar Format (JSGF).
Работа с голосовыми веб-приложениями может принести разочарование. В то время, как преобразовывающее речь ПО работает хорошо, низкокачественные микрофон и динамики вместе с медленным интернетом могут погубить эффективность технологии. Эти проблемы сложно решить, поскольку в основном они неконтролируемы разработчиком. Новый алгоритм сжатия и простые ответы типа "Да" или "Нет" делают эту работу более простой.
Обучаемые системы, которые можно подстроить под голос пользователя, гораздо более успешны, но, как правило, у пользователей не хватает терпения довести процесс обучения системы до конца, а временной фактор делает их непрактичными.
Ожидается, что первая полная VoiceXML 3.0 - технология появится в системах, активизируемых по телефону или мобильной связи, в которых больше возможностей контролировать качество звука. Надо надеяться, что с новыми W3C-стандартами компании смогут больше внимания уделять преобразованию речи и меньше - изобретению колеса. Стандарты обычно приводят к появлению наборов инструментария для программистов, которые часто превращаются в популярные пакеты типа Microsoft Frontpage и Adobe Macromedia Dreamweaver.