Google будет использовать OCR Tesseract

Среда, 6 сентября 2006 г.

Следите за нами в ВКонтакте, Facebook'e и Twitter'e

Google объявила о планах перевода мировых картотек из бумажного вида в электронный. Для этого фирма будет использовать программу оптического распознавания символов (OCR) Tesseract.
"В сущности, это работа по предоставлению возможности нашим пользователям находить информацию, которая раньше существовала только в виде бумажных документов. Мы применяем OCR-программу для перевода документов в электронный вид, после чего проводим их индексацию", - пояснил специалист Google Люк Винсент (Luc Vincent).
Tesseract, в свое время считавшаяся одной из трех самых точных систем распознавания, принадлежала компании Hewlett Packard, но с 1995 года НР перестала вкладывать средства в ее дальнейшее развитие и передала исходный код OCR Университету Лас-Вегаса, который и предоставил его Google.
По словам Винсента, Tesseract имеет ряд ограничений, в частности, она плохо определяет колонки и другие виде макетирования в документах, не принимает цветные или полутоновые изображения. Но на сегодняшний день, по его мнению, это лучшая OCR с открытым кодом.

Следите за нами в ВКонтакте, Facebook'e и Twitter'e


Просмотров: 1009
Рубрика: Hi-Tech


Архив новостей / Экспорт новостей

Ещё новости по теме:

RosInvest.Com не несет ответственности за опубликованные материалы и комментарии пользователей. Возрастной цензор 16+.

Ответственность за высказанные, размещённую информацию и оценки, в рамках проекта RosInvest.Com, лежит полностью на лицах опубликовавших эти материалы. Использование материалов, допускается со ссылкой на сайт RosInvest.Com.

Архивы новостей за: 2018, 2017, 2016, 2015, 2014, 2013, 2012, 2011, 2010, 2009, 2008, 2007, 2006, 2005, 2004, 2003