Google будет использовать OCR Tesseract
Google объявила о планах перевода мировых картотек из бумажного вида в электронный. Для этого фирма будет использовать программу оптического распознавания символов (OCR) Tesseract.
"В сущности, это работа по предоставлению возможности нашим пользователям находить информацию, которая раньше существовала только в виде бумажных документов. Мы применяем OCR-программу для перевода документов в электронный вид, после чего проводим их индексацию", - пояснил специалист Google Люк Винсент (Luc Vincent).
Tesseract, в свое время считавшаяся одной из трех самых точных систем распознавания, принадлежала компании Hewlett Packard, но с 1995 года НР перестала вкладывать средства в ее дальнейшее развитие и передала исходный код OCR Университету Лас-Вегаса, который и предоставил его Google.
По словам Винсента, Tesseract имеет ряд ограничений, в частности, она плохо определяет колонки и другие виде макетирования в документах, не принимает цветные или полутоновые изображения. Но на сегодняшний день, по его мнению, это лучшая OCR с открытым кодом.
"В сущности, это работа по предоставлению возможности нашим пользователям находить информацию, которая раньше существовала только в виде бумажных документов. Мы применяем OCR-программу для перевода документов в электронный вид, после чего проводим их индексацию", - пояснил специалист Google Люк Винсент (Luc Vincent).
Tesseract, в свое время считавшаяся одной из трех самых точных систем распознавания, принадлежала компании Hewlett Packard, но с 1995 года НР перестала вкладывать средства в ее дальнейшее развитие и передала исходный код OCR Университету Лас-Вегаса, который и предоставил его Google.
По словам Винсента, Tesseract имеет ряд ограничений, в частности, она плохо определяет колонки и другие виде макетирования в документах, не принимает цветные или полутоновые изображения. Но на сегодняшний день, по его мнению, это лучшая OCR с открытым кодом.
Ещё новости по теме:
18:20