Новости бизнесаСтатьиАналитические колонкиДеньгиКурс валютБизнес технологии
Главная > Новости бизнеса > Hi-Tech > Как это работает? Синтез речи

Как это работает? Синтез речи

Четверг, 6 октября 2016 г.

Следите за нами в ВКонтакте, Facebook'e и Twitter'e

Многим из вас наверняка доводилось управлять компьютером или смартфоном с помощью голоса. Когда вы говорите Навигатору «Поехали на Гоголя, 25» или произносите в приложении Яндекс поисковый запрос, технология распознавания речи преобразует ваш голос в текстовую команду. Но есть и обратная задача: превратить текст, который есть в распоряжении компьютера, в голос. 

Если набор текстов, которые надо озвучить, относительно невелик и в них встречаются одни и те же слова — как, например, в объявлениях об отправлении и прибытии поездов на вокзале, — достаточно пригласить диктора, записать в студии нужные слова и фразы, а затем собрать из них сообщение. С произвольными текстами, однако, такой подход не работает. Здесь пригодится технология синтеза речи.

В Яндексе для озвучивания текстов используется технология синтеза речи из комплекса Yandex Speechkit. Она,  например, позволяет узнать, как произносятся слова и фразы в Переводчике. Ей также обязан своим голосом Автопоэт — его стихи мы будем использовать как примеры.

Подготовка текста

Задача синтеза речи решается в несколько этапов. Сначала специальный алгоритм подготавливает текст для того, чтобы роботу было удобно его читать: записывает все числа словами, разворачивает сокращения и так далее. Затем текст делится на фразы, то есть на словосочетания с непрерывной интонацией — для этого компьютер ориентируется на знаки препинания и устойчивые конструкции. Для всех слов составляется их фонетическая транскрипция. Например, «какого» поменяется на «какова», ведь иначе робот так и прочитал бы это слово — окая и через «г».



Чтобы понять, как читать слово и где поставить в нём ударение, робот сначала обращается к классическим, составленным вручную словарям, которые встроены в систему. Если в нужного слова в словаре нет, компьютер строит транскрипцию самостоятельно — опираясь на правила, заимствованные из академических справочников. Наконец, если обычных правил оказывается недостаточно —, а такое случается, ведь любой живой язык постоянно меняется, — он использует статистические правила. Если слово встречалось в корпусе тренировочных текстов, система запомнит, на какой слог в нём обычно делали ударение дикторы.

Произношение и интонирование

Когда транскрипция готова, компьютер рассчитывает, как долго будет звучать каждая фонема, то есть сколько в ней фреймов — так называют фрагменты длиной 25 миллисекунд. Затем каждый фрейм описывается по множеству параметров: частью какой фонемы он является и какое место в ней занимает; в какой слог входит эта фонема; если это гласная, то ударная ли она; какое место она занимает в слоге; слог — в слове; слово — в фразе; какие знаки препинания есть до и после этой фразы; какое место фраза занимает в предложении; наконец, какой знак стоит в конце предложения и какова его главная интонация.

Другими словами, для синтеза каждых 25 миллисекунд речи используется множество данных. Информация о ближайшем окружении обеспечивает плавный переход от фрейма к фрейму и от слога к слогу, а данные о фразе и предложении в целом нужны для создания правильной интонации синтезированной речи.



Чтобы прочитать подготовленный текст, используется акустическая модель. Она отличается от акустической модели, которая применяется при распознавании речи. В случае с распознаванием модели нужно установить соответствие между звуками с определёнными характеристиками и фонемами. В случае с синтезом акустическая модель, должна, наоборот, по описаниям фреймов составить описания звуков.

Откуда она знает, как правильно произнести фонему или придать верную интонацию вопросительному предложению? Она учится на текстах и звуковых файлах. Например, в неё можно загрузить аудиокнигу и соответствующий ей текст. Чем больше данных, на которых учится модель, тем лучше её произношение и интонирование.

Голоса

Наконец, о самом голосе. Узнаваемыми наши голоса, в первую очередь, делает тембр, который зависит от особенностей строения органов речевого аппарата у каждого человека. Тембр вашего голоса можно смоделировать, то есть описать его характеристики — для этого достаточно начитать в студии небольшой корпус текстов. После этого данные о вашем тембре можно использовать при синтезе речи на любом языке, даже таком, которого вы не знаете. Когда роботу нужно что-то сказать вам, он использует генератор звуковых волн — вокодер. В него загружается информация о частотных характеристиках фразы, полученная от акустической модели, а также данные о тембре, который придаёт голосу узнаваемую окраску.

В качестве примера мы озвучили два последних предложения предыдущего абзаца разными голосами — мужским и женским:





***

Подробнее о технологиях из комплекса Yandex SpeechKit можно узнать на этой странице или на специальном ресурсе. Если вы разработчик и хотите протестировать облачную или мобильную версию SpeechKit, поищите информацию на сайте, посвящённом технологиям Яндекса.

Следите за нами в ВКонтакте, Facebook'e и Twitter'e


Просмотров: 205
Рубрика: Hi-Tech
(CY)

Архив новостей / Экспорт новостей

Ещё новости по теме:

17: 40
Астрофизики МГУ изучили «омолаживающийся» пульсар в соседней галактике |
17: 40
Спутники показали, как рождается огромный айсберг |
17: 20
debian.org: останов общедоступных FTP-серверов |
16: 40
Экс-владелец сети казино «Вулкан» Олег Бойко решил дополнительно инвестировать в финтех-стартапы $150 млн |
16: 20
Компания Rambus отчиталась за первый квартал 2017 года: за год доход вырос на треть |
16: 20
Водоблок EK Water Blocks EK-FB Asus C6H RGB Monoblock предназначен для платы Asus ROG Crosshair VI Hero с процессорным гнездом AM4 |
16: 20
Tele2 запустил VoLTE в Москве |
16: 20
Canonical прекратит поддержку Ubuntu для смартфонов и планшетов в июне |
16: 20
Samsung оснастила фронталку Galaxy S8 оптической стабилизацией, но умолчала об этом |
16: 20
Принадлежащая Alphabet компания Waymo предложила жителям Аризоны бесплатные поездки на беспилотных минивэнах |
16: 00
15 Telegram-каналов, на которые нужно подписаться прямо сейчас |
16: 00
ДНК костей моряков может рассказать причину пропажи экипажа Франклина |
16: 00
Почему летучие мыши приземляются вниз головой |
15: 40
Стало известно, когда появится в продаже 3D-карта Colorful iGame GTX 1080 Ti Vulcan X OC |
15: 40
Sony Xperia XZ и Xperia X Performance начали обновляться до Android 7.1.1 Nougat |
15: 40
AGM A8 — «неубиваемый» смартфон стал еще дешевле |
15: 40
Meizu объявила о снижении цен на смартфоны в России |
15: 20
Мобильное приложение поможет очистить самый грязный город планеты |
15: 00
Amazon тоже занимается самоуправляемыми автомобилями |
15: 00
Водитель Lyft подал в суд на Uber из-за приложения для слежки Hell |
14: 40
Apple Pay заработал для карт Visa Сбербанка |
14: 40
Созданы садовые кресла с зарядкой для гаджетов |
14: 40
пїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅ Sony Xperia XZ Premium пїЅпїЅпїЅпїЅпїЅ пїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅ пїЅ пїЅпїЅпїЅпїЅпїЅ пїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅ пїЅпїЅпїЅпїЅпїЅпїЅпїЅ |
14: 20
В 2ГИС появились пешеходные маршруты |
14: 20
Samsung Pay официально заработал с картами Visa от Сбербанка |
14: 20
«Почта России» отчиталась о росте прибыли в 2016 году на 10% — до 1,7 млрд рублей |
14: 20
SK Hynix увеличила чистую прибыль на 324% |
14: 20
Внешние хранилища G-Technology G-Drive, G-RAID и G-Speed обзавелись интерфейсом Thunderbolt 3 |
14: 00
Кинотеатр из яйца: необычное изобретение |
14: 00
Реконструкторы «взяли штурмом» Берлин |
13: 40
В прошлом квартале телевизионные панели 4K составили треть от общего объёма поставок такой продукции |
Новости бизнесаСтатьиАналитические колонкиДеньгиКурс валютБизнес технологии
Rating@Mail.ru
Условия размещения рекламы

Наша редакция

Обратная связь

RosInvest.Com не несет ответственности за опубликованные материалы и комментарии пользователей. Возрастной цензор 16+.

Ответственность за высказанные, размещённую информацию и оценки, в рамках проекта RosInvest.Com, лежит полностью на лицах опубликовавших эти материалы. Использование материалов, допускается со ссылкой на сайт RosInvest.Com.

Skype: rosinvest.com (Русский, English, Zhōng wén).

Архивы новостей за: 2016, 2015, 2014, 2013, 2012, 2011, 2010, 2009, 2008, 2007, 2006, 2005, 2004, 2003