Abbyy FineReader научился распознавать средневековые тексты
Компания Abbyy выпустила FineReader XIX, позволяющий распознавать тексты, датируемые XVII-XIX вв.
Программа совмещает все возможности FineReader Corporate Edition с новой технологией распознавания старых европейских текстов. Программа призвана помогать там, где существует потребность в компьютерной обработке исторических документов и в создании современных архивов: в библиотеках, исторических фондах, в крупнейших университетах и исследовательских центрах по всему миру.
Abbyy FineReader XIX обеспечивает распознавание старых европейских текстов, набранных старинными шрифтами, с учётом особенностей старинных алфавитов, вышедшей из употребления орфографии и морфологии.
Дополнительно к 177 языкам, используемым в системе FineReader, программа поддерживает 5 старых европейских языков: английский, немецкий, французский, испанский и итальянский. В арсенале системы — способность обрабатывать популярные в прошлом шрифты Fraktur и Schwabacher и большое количество готических ("ломаных") шрифтов.
Во время работы над Abbyy FineReader XIX разработчики провели специальное обучение системы: более чем 2500 примеров было подобрано для каждого символа готического шрифта. Созданная технология распознавания была протестирована на 31 тыс. страниц оригинального текста из различных источников. Специальные языковые модели для распознавания старых европейских языков были созданы совместно с партнёром Abbyy — новосибирской компанией Atapy Software. В ходе разработки проанализировано 10 словарей и более 100 книг, изданных в период с 1750 по 1930 год. В систему добавлено 159 грамматических моделей, не использующихся в современных европейских языках. FineReader XIX учитывает особенности старых европейских алфавитов (с 1600 года) и умеет распознавать вышедшие из употребления символы, например, удлинённое "s" в ранних английских и французских алфавитах.
Abbyy FineReader XIX является одним из ключевых компонентов проекта "METAe". Основная цель этого проекта, который объединяет крупнейшие библиотеки Европы и софтверные компании, — создание ПО для архивации и систематизации книг и документов, представляющих историческую ценность. FineReader XIX поддерживает операционные системамы Windows 2003, XP, 2000 и NT 4.0. Система располагает всеми возможностями FineReader 7.0 Corporate Edition, такими как точное сохранение оформления, распознавание многоязычных документов на 177 языках, открытие и распознавание PDF-файлов, полнотекстовый поиск с учётом морфологии, автоматическая сетевая установка. Распознанный текст можно сохранить в различных форматах: Microsoft Word, Microsoft Excel, Text, Rich Text Format, Microsoft Word XML и другие.
Ещё новости по теме:
18:20