1. Обоснование необходимости проведения исследований
Проект
"Разработка моделей и методов построения информационных систем, основанных на формальных, логических и лингвистических подходах"
1. Обоснование необходимости проведения исследований
В связи с бурным ростом объемов информации все более актуальной становится задача эффективного информационного обеспечения научных, производственных процессов и процессов принятия решений. Однако, как правило, задача информационного обеспечения рассматривается в контексте создания хранилищ документов и их систематизации с целью облегчения поиска необходимой информации. Возможностей, предоставляемых построенными в рамках такого подхода информационных систем, оказывается недостаточно для интеллектуальной поддержки производственной и управленческой деятельностей как организаций, так и лиц, принимающих решения.
Это связано с тем, что, во-первых, в постоянно разрастающемся архиве становится затруднительно найти нужную информацию; во-вторых, данные часто дублируются и противоречат друг другу. Кроме того, доступность этой информации ограничивается способом ее представления. Большей частью она представлена в виде текстовых документов. Интерпретация и представление этих документов в виде взаимосвязанных фактов, как правило, не поддерживается используемыми информационными системами и возлагается на пользователя. В то же время для человека, будь то ученый или руководитель предприятия, принимающий решение, наиболее естественной формой подачи информации является представление ее в виде различного рода фактов. Причем очень востребованы средства для анализа фактов, например, их сопоставления во временном и/или пространственном разрезе, быстрого определения источника данного факта, нахождения множества связанных с ним фактов и т.п. Такие средства могла бы предоставлять информационная система, способная на основе общих знаний и знаний о предметной области, изложенных в подходящих формализмах, поддерживать наборы фактов, давать удобные возможности в представлении и редактировании информации. Кроме того, важно иметь средства выполнения автоматического анализа текстов документов с последующей интерпретацией смыслового содержания в виде фактов и их группирования.
В связи с этим в проекте ставится задача разработки моделей и методов построения информационных систем нового поколения, основанных на использовании современных формализаций представления знаний и смысла. В частности, требуется разработать различные модели, представления информации, данных, фактов и знаний, требуется исследовать возможности и применимость онтологических методов для использования знаний о предметных областях, построить и изучить модели и технологии анализа естественно языковых текстов на предмет экстрагирования фактов и отношений между фактами. Требуется создать модель информационного пространства, подходы к построению моделей мира и моделей предметных областей, методы автоматического анализа текстов деловых и научных документов, методы представления и содержательного поиска информации в терминах понятий заданной предметной области.
1.1. Сложившиеся тенденции и современный уровень решения
проблем
Основным инструментом, с помощью которого в настоящее время осуществляется информирование специалистов, являются информационные системы (ИС), содержащие различные типы документов. Наиболее востребованными ИС на сегодняшний день являются системы документооборота, системы фактографического анализа, основанные на них интеллектуальные системы поддержки принятия решений и порталы знаний (информационные web-системы), служащие для поддержки деятельности предприятий и научных коллективов.
В настоящее время интенсивно ведутся исследования в сфере документарного обслуживания по созданию систем автоматической обработки текстов, прежде всего по машинному аннотированию, реферированию, индексированию, переводу. Эти исследования ведутся уже более трех десятилетий, но на уровень промышленной эксплуатации вышли лишь системы автоматического индексирования и, частично, машинного перевода.
Несмотря на определенные успехи в развитии документарных информационных систем, эти системы обеспечивают доступ только к первичным документам, но не к фактам и сведениям (смысловым единицам текста), содержащимся в этих документах.
Относительно новым направлением в исследованиях и технологическом развитии являются системы, основанные на семантических сетях RDF, использование дескриптивной логики через языки типа OWL, дающие формализацию описания онтологий. Это направление получило название Semantic Web и его цели в существенной части перекликаются с целями, поставленными в данном проекте.
Формализм описаний онтологий, основанный на дескриптивной логике, позволяет формулировать утверждения о полноте описания объектов и множеств объектов. К сожалению, он не определяет точного смысла для понятия "знание" и "обучение". Наоборот, логика знаний (эпистемическая логика) формализует понятие "знание", а в комбинации с логикой времени и программными логиками - понятие "обучение". С алгоритмической точки зрения комбинированная логика знаний, времени и программ достаточно хорошо изучена теоретически: известны алгоритмы проверки темпорально-эпистемических свойств онтологий, получены нижние оценки их сложности.
Комбинация дескриптивного, эпистемического и темпорально-программного подходов может стать универсальным логическим формализмом для описания онтологий как формы представления знаний. В таком формализме возможно формулировать как отдельные утверждения о полноте того или иного описания, или о неком знании, или о последовательности действий, протекающей во времени, так и комбинированные утверждения, например, о возможности получить знания об объектах, представленных в онтологии после выполнения определенной последовательности действий по пополнению онтологии новыми отношениями между объектами.
1.2. Оценка проделанной работы в этом направлении в ИСИ СО РАН
В ИСИ СО РАН ведутся исследования, направленные на:
- разработку средств представления знаний о предметных областях и релевантных им информационных ресурсах на основе онтологического подхода;
- построение фактографических и документарных систем, снабженных базой данных;
- использование формализмов RDF, OWL в информационных системах, построение эффективной технологии работы с семантическими сетями;
- создание модели информационного пространства, разработка подходов к построению распределенных систем хранения больших и очень больших информационных объемов;
- извлечение фактов из плоских и структурированных текстов;
- созданию комбинированных логик знаний, времени и программ.
В частности, разработана технология создания web-порталов знаний, обеспечивающих содержательный доступ к систематизированным знаниям и информационным ресурсам заданной предметной области; создан электронный архив академика А.П.Ершова; разработана система создания и поддержания электронных архивов и музеев; создана экспериментальная система интегрального информационного обеспечения работы по подготовке кадров, охватывающая цепочку: кафедра – аспирантура – академический институт.
В результате проведения фундаментальных исследований и выполнения прикладных разработок, получены существенные результаты, в частности:
Разработаны онтологии научной деятельности и научного знания, на основе которых могут строиться онтологии конкретных областей научного знания.
Получил развитие семантически-ориентированный подход к анализу текстов документов, который предполагает активное использование предметного словаря и онтологии предметной области. Данный подход совмещает классические методы морфологического и поверхностно-синтаксического анализа текста с разработанными в нашем институте методами лексического и семантического анализа на основе лексических шаблонов и семантических правил.
Разработаны методы автоматического построения предметных словарей на основе обучающей выборки, а также алгоритмы классификации, позволяющие относить анализируемый документ к одной или нескольким рубрикам из иерархии тем.
Разработаны алгоритмы проверки различных комбинированных логик знаний, времени и программ, получены нижние оценки их сложности. Разработан унифицированный семантический язык USL, предназначенный для формального описания дискретных динамических систем, в частности, алгоритмов проверки комбинированных логик.
1.3. Цели и предполагаемые результаты исследований
Целью проекта является разработка моделей и методов построения информационных систем нового поколения, основанных на использовании современных формализаций представления знаний и смысла.
Основными задачами проекта являются:
теоретические исследования применения онтологий и логических методов к традиционным и новым постановкам системной информатики
разработка концепции и архитектуры информационных систем нового поколения, создание технологии и основных компонентов;
разработка методов и средств построения моделей предметных областей и представления предметных данных и знаний, в частности фактов, а также методов содержательного поиска информации.
разработка методов автоматического анализа текстов деловых и научных документов, извлечения фактов из текстов.
Предполагается, что будут получены следующие результаты: будут созданы модель информационного пространства, базовая модель представления неспецифической информации, средства построения моделей (онтологий) предметных областей, средства описания и хранения предметных данных и знаний, методы содержательного поиска информации, методы автоматического анализа текстов деловых и научных документов, методы и средства описания онтологий на основе комбинаций дескриптивных, эпистемических и темпорально-программных логик, алгоритмы проверки формул комбинированных логик.
Кроме того, будет создана и обоснована методика, построения информационных систем, базирующихся на применении разработанных формализмов, будут выполнены конкретные прикладные проекты по тематике РАН.
Для решения перечисленных задач в проекте выделены три блока.
1. Разработка универсального логического формализма для описания онтологий на основе комбинации дескриптивного, эпистемического и темпорально-программного подходов
2. Разработка концепции и архитектуры информационной систем, основанных на формальных, логических и лингвистических подходах.
3. Разработка методов и средств автоматического анализа текстов деловых и научных документов.
2. Основные блоки (этапы) проекта, сроки их реализации
Выполнение проекта предполагается с 2006 по 2008 год.
Блок А: Разработка универсального логического формализма для описания онтологий на основе комбинации дескриптивного, эпистемического и темпорально-программного подходов
В рамках этого блока планируется:
разработка новых комбинаций дескриптивных, эпистемических и темпорально-программных логик;
разработка алгоритмов проверки формул комбинированных логик в онтологиях и экспериментальная проверка их эффективности;
разработка унифицированного языка описания эволюционирующих (изменяющихся во времени) онтологий, основанных на комбинированных логиках.
Блок Б: Разработка концепции и архитектуры информационной систем, основанных на формальных, логических и лингвистических подходах
В рамках этого блока планируется:
разработка методов и средств построения моделей предметных областей на основе онтологий;
разработка модели информационного пространства системы,
разработка методов и структур данных для представления фактов и предметных знаний;
разработка методов семантического поиска информации,
разработка концепции и архитектуры информационной системы, основанной на формальных, логических и лингвистических подходах.
Блок В: Разработка методов и средств автоматического анализа текстов деловых и научных документов
В рамках этого блока планируется:
разработка алгоритмов сопоставления формул исчисления предикатов и конечных моделей текстам на естественном языке для представления смысла текстов;
разработка логических и лингвистических методов автоматического анализа текстов деловых и научных документов;
исследование формальными методами структуры толковых словарей (традиционных, а не машинно-ориентированных) с целью их использования для автоматического анализа текстов.
разработка методов автоматического извлечения фактов из текстов и средств построения предметных словарей.
Участники проекта
Координатор проекта — д.ф.-м.н. А. Г. Марчук.
Коллектив проекта включает 21 человек,
в том числе, 2 доктора наук, 7 кандидатов наук, 12 молодых ученых и аспирантов.
2. Финансирование
Общий объем финансирования проекта на 2006 год — 800 000 рублей
Финансирование по блокам:
Блок А — 200 000 рублей.
Блок Б — 300 000 рублей.
Блок В — 300 000 рублей.
3. Список публикаций сотрудников по теме проекта
Van der Meyden R., Shilov N.V. Model Checking Knowledge and Time in Systems with Perfect Recall. Proc. of Int. Conf. Foundations of Software technology and theoretical computer Science FSTTCS'99, India, 1999, Springer LNCS, v. 1738, 1999.
Shilov N.V., Yi K. Puzzles for Learning Model Checking, Model Checking for Programming Puzzles, Puzzles for Testing Model Checkers. Electronic Notes in Theoretical Computer Science, v.43, 2000.
Shilov N.V., Yi K. On Expressive and Model Checking Power of Propositional Program Logics. Proc. of int. Conf. Perspectives of System Informatics PSI'01, Russia, 2001, Springer, Lecture Notes in Computer Science, v.2244, 2001.
Shilov N. V., Garanina N.O. Model Checking Knowledge and Fixpoints. Proc. of Workshop on Fixpoints in Computer Science, Denmark, 2002, BRICS Notes Series NS-02-2.
Shilov N.V., Kalinina N.A. A Note on Game Semantics for Propositional Program Logics. Proc. of Concurrency, Specification and Programming Workshop, Poland, 2003. Warsaw University.
Garanina N.O., Shilov N.V. Polynomial Approximations for Model Checking. Springer Lecture Notes in Computer Science, v.2890, 2004.
Shilov N.V. ,. Yi K How to find a coin: propositional program logics made easy. In Current Trends in Theoretical Computer Science, World Scientific, v. 2, 2004.
Kouzmin E.V. , Shilov N.V., Sokolov V.A. Model Checking Mu-Calculus in Well-Structured Transition Systems. Proc. of International Symposium Temporal Representation and Reasoning TIME'04, France, 2004, IEEE Press, 2004.
Shilov N.V., Garanina N.O., Kalinina N.A Model checking knowledge, actions and fixpoints. Proc. of Concurrency, Specification and Programming Workshop CS&P;'2004, Germany, 2004, Humboldt Universitat, Berlin, Informatik-Bericht. №170, v.2.
Гаранина Н.О., Шилов Н.В. Верификация комбинированных логик знаний, действий и времени в моделях. Принято к печати в сб. Системная Информатика, вып. 10, -60 с., 2006.
Anureev I.S. Unified semantic language: syntax, semantics, and pragmatics // Joint NCC&IIS; Bulletin, Series Computer Science. — 2004. — Vol. 20. — P. 1-30.
S.V. Bulgakov, E.A. Sidorova, Yu. A. Zagorulko. Ontology-Oriented Multi-Agent Approach to Development of Knowledge Internet Portal // Proceedings of the 6th International Workshop on Computer Science and Information Technologies. CSIT’2004. Budapest, Hungary, 2004, v1, pp. 182-187.
О.И. Боровикова, С.В. Булгаков, Ю.А. Загорулько, Е.А. Сидорова, Ю.П. Холюшкин. Концепция интеллектуального интернет-портала знаний для доступа к информационным ресурсам по археологии и этнографии // Труды VI-й международной конференции "Проблемы управления и моделирования в сложных системах" -Самара: Самарский Научный Центр РАН, 2004. -С. 215-220.
Zagorulko Yu., Borovikova O., Bulgakov S., Sidorova E. Ontology-based approach to development of adjustable knowledge internet portal for support of research activity // Bull. of NCC. Ser.: Comput. Sci. — 2005. — Is. 23. — P. 45–56.
Боровикова О.И., Загорулько Ю.А., Сидорова Е.А. Подход к автоматизации сбора онтологической информации для интернет-портала знаний // Труды международной конференции Диалог'2005 "Компьютерная лингвистика и интеллектуальные технологии" – Звенигород, 1-5 июня 2005, М.: Наука, 2005. -с. 65-70.
И.С. Кононенко, Е.А. Сидорова. Обработка делового письма в системе документооборота // Труды международного семинара Диалог’2002 по компьютерной лингвистике и ее приложениям. Т.2 -Протвино, 2002. -с. 299–310.
Сидорова Е.А. Технология разработки тематических словарей на основе сочетания лингвистических и статистических методов // Труды международной конференции Диалог'2005 "Компьютерная лингвистика и интеллектуальные технологии" – Звенигород, 1-5 июня 2005, М.: Наука, 2005. С.443-449.
E.A. Sidorova, I. S. Kononenko, Yu. A. Zagorulko. A Knowledge-Based Approach to Intelligent Document Management // Proceedings of the 7th International Workshop on Computer Science and Information Technologies. CSIT’2005. Ufa-Assy, Russia, 2005, v1, -P. 33-38.
Batura T., Murzin F. Logical Methods for Representing Meaning of Natural Language Texts // 4th International Conference on Computational Science - ICCS 2004, Krakуw, Poland, June 6-9, 2004. Proceedings, Part III, LNCS 3038, p. 545 – 551.
Батура Т.В., Еркаева О.Н., Мурзин Ф.А. К вопросу об анализе текстов на естественном языке // “Новые информационные технологии в науке и образовании”, ИСИ СО РАН, Новосибирск 2003, -С. 7-58.
Батура Т.В., Мурзин Ф.А. Логические методы представления смысла текста на естественном языке // “Новые информационные технологии в науке и образовании”, ИСИ СО РАН, Новосибирск 2003, -С. 59-111.
Батура Т.В. Представление смысла текста на естественном языке и его лексический анализ //Технологии Microsoft в информатике и программировании, Новосибирск 2004, 88-90.
Батура Т.В. Методы логического анализа и представления смысла текста на естественном языке //Технологии Microsoft в информатике и программировании, Новосибирск 2006, 155-157.
страница 1
скачать
Другие похожие работы: