Нейросеть научили слышать то, что люди говорят «про себя». И озвучивать это вслух

Пятница, 27 ноября 2020 г.

Следите за нами в ВКонтакте, Facebook'e и Twitter'e

Исследователи использовали рекуррентную нейросеть с долгой краткосрочной памятью, а данные, полученные на выходе из неё, передаются в нейросеть WaveNet, декодирующую их в аудиозапись человеческого голоса. Для обучения был собран датасет из 20 часов записи слышимой и беззвучной речи, представленной в виде трёх типов данных. После обучения разработчики проверили понятность генерируемых записей.

В качестве метрики учёные использовали стандартную пословную вероятность ошибки — сумму изменённых, отсутствующих и лишних слов, поделённую на общую длину текста. Для простых фраз, наподобие дат и других чисел, вероятность ошибки полноценной нейросети составила 3,6, а для той, которую обучали только на слышимой речи, она составила 88,8. Для сложных фраз, вроде отрывков из книг, разница была не такой большой: 74,8 к 95,1 при проверке человеком и 68 к 91,2 при проверке системой распознавания речи Mozilla DeepSpeech.

Следите за нами в ВКонтакте, Facebook'e и Twitter'e


Просмотров: 545
Рубрика: Hi-Tech
(CY)

Архив новостей / Экспорт новостей

Ещё новости по теме:

RosInvest.Com не несет ответственности за опубликованные материалы и комментарии пользователей. Возрастной цензор 16+.

Ответственность за высказанные, размещённую информацию и оценки, в рамках проекта RosInvest.Com, лежит полностью на лицах опубликовавших эти материалы. Использование материалов, допускается со ссылкой на сайт RosInvest.Com.

Архивы новостей за: 2018, 2017, 2016, 2015, 2014, 2013, 2012, 2011, 2010, 2009, 2008, 2007, 2006, 2005, 2004, 2003

Апрель 2010: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30