IBM открыла исходный код технологии для анализа неструктурированной информации

Среда, 10 августа 2005 г.

Следите за нами в ВКонтакте, Телеграм'e и Twitter'e

Корпорация IBM объявила о планах по открытию исходного кода своей технологии Unstructured Information Management Architecture (UIMA). Технология UIMA предназначена для поддержки нового класса программных приложений, способных обрабатывать текстовые документы и другой контент для выявления скрытого смысла, отношений и релевантных фактов.

Современная ситуация характеризуется лавинообразным нарастанием в различных организациях и в интернете потока неструктурированной информации - состоящего из документов, изображений, комментариев, заметок, электронных писем и даже мультимедийных файлов, в том числе видео и аудио. Однако до недавнего времени не существовало технологий, которые позволяли бы программными средствами осуществлять поиск в этих разнородных данных и осмысленно интерпретировать их. Технология UIMA реализована в виде открытой программной среды со стандартными интерфейсами, позволяющими интегрировать средства анализа неструктурированной информации в любое приложение. Эта среда упрощает объединение программных инструментов анализа с комплексными корпоративными приложениями от нескольких различных поставщиков. Кроме того, в состав среды UIMA входят инструменты, ускоряющие создание и повторное использование аналитических программных компонентов для обработки неструктурированной информации.

Технология UIMA более четырех лет разрабатывалась подразделением IBM Research. Кроме того, значительную поддержку оказало Управление перспективных исследовательских программ (DARPA) - центральная научно-исследовательская организация министерства обороны США. DARPA и IBM сформировали рабочую группу из представителей авторитетных исследовательских организаций, которые использовали свой опыт в области анализа неструктурированной информации для совершенствования технологии UIMA.

Среди участников рабочей группы несколько ведущих университетов, а также отраслевые исследовательские и проектные организации. Некоторые из участвовавших в работе университетов, в том числе Университет Карнеги Меллона, Колумбийский университет, Стэнфордский университет и Массачусетский университет в Амхерсте, уже используют технологию UIMA в учебном процессе и в исследовательских проектах. Среди других организаций, активно поддерживающих и использующих технологию UIMA, - Science Applications International Corp., BBN Technologies, Mayo Clinic и MITRE Corporation. Кроме того, сегодня было объявлено о широком коммерческом применении технологии UIMA - более 15 поставщиков уже изъявили желание использовать эту технологию в своих программных продуктах.

Современные приложения для выявления знаний и бизнес-анализа смогут применить технологию UIMA при обработке информации, понимание и использование которой до недавнего времени вызывало определенные трудности. Кроме того, технология UIMA может быть использована при поддержке приложений расширенного корпоративного поиска - эта технология образует единый механизм для создания и применения решений по обработке текстов на естественном языке. Эта технология позволит компьютерам понимать и анализировать информацию из самых разнообразных источников, имеющихся у человека. В конечном итоге, компьютеры смогут извлекать из подобной информации глубинный смысл - в том числе выявлять отношения, обуславливающие наличие определенных фактов.

Среда UIMA уже встроена в ряд продуктов IBM, в том числе в IBM WebSphere Information Integrator OmniFind Edition - первую коммерческую программную платформу для обработки контента в соответствии со стандартом UIMA. В продуктах IBM WebSphere Portal Server и Lotus Work Place для обработки контента также используется технология UIMA.

Эта технология будет передана группе Open Source Technology Group и, как ожидается, будет доступна через веб-сайт SourceForge к концу 2005 г. В данный момент среда UIMA может быть бесплатно загружена с веб-сайта IBM AlphaWorks по этой ссылке.