Свободная OCR-система от Google поддерживает русский язык

Вторник, 5 октября 2010 г.

Следите за нами в ВКонтакте, Facebook'e и Twitter'e

Исходные тексты OCR-движка Tessaract был опубликован компанией HP в 2005 году. К тому времени проект уже 10 лет не развивался и сильно уступал своим конкурентам. Однако проект был "подхвачен" компанией Google, которая на днях объявила о выпуске третьей версии Tessaract.

Среди усовершенствований новой версии – новый модуль анализа оформления страниц, поддержка открытого стандарта представления OCR-информации hOCR, поддержка библиотеки leptonica для выполнения операций, связанных с обработкой изображений.

Однако главная новость для российских пользователей заключается в том, что Tessaract теперь поддерживает русский язык. До недавнего времени единственной свободной OCR-системой с поддержкой русского языка было ПО CuneiForm, открытое российским разработчиком Cognitive Technologies в 2008 году. Изначально CuneiForm был доступен только в версии для MS Windows, но сегодня уже существуют графические оболочки для использования CuneiForm из среды Linux (существуют графические оболочки Cuneiform-Qt и YAGF).

Инструкция по установке Tessaract в средах Windows и UNIX доступна на сайте проекта.

Следите за нами в ВКонтакте, Facebook'e и Twitter'e


Просмотров: 505
Рубрика: Hi-Tech


Архив новостей / Экспорт новостей

Ещё новости по теме:

RosInvest.Com не несет ответственности за опубликованные материалы и комментарии пользователей. Возрастной цензор 16+.

Ответственность за высказанные, размещённую информацию и оценки, в рамках проекта RosInvest.Com, лежит полностью на лицах опубликовавших эти материалы. Использование материалов, допускается со ссылкой на сайт RosInvest.Com.

Архивы новостей за: 2018, 2017, 2016, 2015, 2014, 2013, 2012, 2011, 2010, 2009, 2008, 2007, 2006, 2005, 2004, 2003

Апрель 2014: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30