"Яндекс" создал онлайн-переводчик
Российский поисковик "Яндекс" представил сервис онлайн-перевода текстов, основанный на собственной технологии.
Сегодня "Яндекс" запустил бета-версию сервиса "Яндекс.Перевод", основанного на собственной системе машинного перевода. Он позволяет перевести текст или веб-страницу с английского или украинского языка на русский или наоборот.
Машинный перевод "Яндекса" основывается не на правилах языка (системе эти правила даже не известны), а на статистике, говорят в компании. Чтобы выучить язык, система сравнивает сотни тысяч параллельных текстов - содержащих одну и ту же информацию, но на разных языках. Это могут быть, например, большие тексты с разноязычных версий сайтов организаций. При переводе система выбирает из словарей наиболее вероятные варианты, учитывая контекст.
В системе машинного перевода "Яндекса" три основные части: модель перевода, модель языка и декодер. Модель перевода - это таблица, в которой для всех известных системе слов и фраз на одном языке перечислены все возможные их переводы на другой язык и указана вероятность этих переводов (для каждой пары языков есть своя таблица).
Другая составляющая системы машинного перевода - модель языка. Для её создания система изучает сотни тысяч различных текстов на нужном языке и составляет список всех употребленных в них слов и словосочетаний с указанием частоты их использования.
Непосредственно переводом занимается декодер. Для каждого предложения исходного текста он подбирает все варианты перевода, сочетая между собой фразы из модели перевода, и сортирует их по убыванию вероятности.
Одно из достоинств статистического машинного перевода в том, что он живёт вместе с языком, считают в "Яндексе". То есть, если что-то в языке меняется, например, люди начинают писать какое-нибудь слово по-другому, система видит это, как только к ней попадают новые тексты. И чем быстрее нововведение распространится в языке, тем быстрее оно появится в моделях перевода и языка.
"Яндекс.Перевод" регулярно обновляется - каждое обновление сначала проходит проверку (используется метрика для статистических машинных переводов - Bilingual Evaluation Understudy). Перевод специально подобранных текстов, полученный системой, сравнивается с эталонным. Если данные от вновь изученных документов ухудшили качество перевода, то они отбраковываются.
"Статистический машинный перевод, конечно, нельзя сравнивать с литературным, сделанным профессиональным переводчиком, - говорит Алексей Байтин, руководитель сервиса "Яндекс.Перевод". - Но часто бывает, что пользователю нужно просто понять основной смысл текста - например, он хочет почитать отзывы о зарубежных отелях или новости в иностранных СМИ. Онлайн-переводчик легко поможет это сделать".
"Яндекс" будет повышать качество и скорость перевода, а также добавлять другие языковые пары, обещают в компании.
Стоит отметить, что сервис онлайн-перевода, также основанный на статистике, уже несколько лет предоставляет Google. В его арсенале 57 языков. Помимо текстов и веб-страниц он также предлагает перевод документов. Кроме того, онлайн-перевод с основных европейских языков осуществляет российская компания "Промт" на сайте translate.ru.
Сегодня "Яндекс" запустил бета-версию сервиса "Яндекс.Перевод", основанного на собственной системе машинного перевода. Он позволяет перевести текст или веб-страницу с английского или украинского языка на русский или наоборот.
Машинный перевод "Яндекса" основывается не на правилах языка (системе эти правила даже не известны), а на статистике, говорят в компании. Чтобы выучить язык, система сравнивает сотни тысяч параллельных текстов - содержащих одну и ту же информацию, но на разных языках. Это могут быть, например, большие тексты с разноязычных версий сайтов организаций. При переводе система выбирает из словарей наиболее вероятные варианты, учитывая контекст.
В системе машинного перевода "Яндекса" три основные части: модель перевода, модель языка и декодер. Модель перевода - это таблица, в которой для всех известных системе слов и фраз на одном языке перечислены все возможные их переводы на другой язык и указана вероятность этих переводов (для каждой пары языков есть своя таблица).
Другая составляющая системы машинного перевода - модель языка. Для её создания система изучает сотни тысяч различных текстов на нужном языке и составляет список всех употребленных в них слов и словосочетаний с указанием частоты их использования.
Непосредственно переводом занимается декодер. Для каждого предложения исходного текста он подбирает все варианты перевода, сочетая между собой фразы из модели перевода, и сортирует их по убыванию вероятности.
Одно из достоинств статистического машинного перевода в том, что он живёт вместе с языком, считают в "Яндексе". То есть, если что-то в языке меняется, например, люди начинают писать какое-нибудь слово по-другому, система видит это, как только к ней попадают новые тексты. И чем быстрее нововведение распространится в языке, тем быстрее оно появится в моделях перевода и языка.
"Яндекс.Перевод" регулярно обновляется - каждое обновление сначала проходит проверку (используется метрика для статистических машинных переводов - Bilingual Evaluation Understudy). Перевод специально подобранных текстов, полученный системой, сравнивается с эталонным. Если данные от вновь изученных документов ухудшили качество перевода, то они отбраковываются.
"Статистический машинный перевод, конечно, нельзя сравнивать с литературным, сделанным профессиональным переводчиком, - говорит Алексей Байтин, руководитель сервиса "Яндекс.Перевод". - Но часто бывает, что пользователю нужно просто понять основной смысл текста - например, он хочет почитать отзывы о зарубежных отелях или новости в иностранных СМИ. Онлайн-переводчик легко поможет это сделать".
"Яндекс" будет повышать качество и скорость перевода, а также добавлять другие языковые пары, обещают в компании.
Стоит отметить, что сервис онлайн-перевода, также основанный на статистике, уже несколько лет предоставляет Google. В его арсенале 57 языков. Помимо текстов и веб-страниц он также предлагает перевод документов. Кроме того, онлайн-перевод с основных европейских языков осуществляет российская компания "Промт" на сайте translate.ru.
Ещё новости по теме:
18:20