Название проекта
1. Номер проекта
15/10
2. Название проекта
Математические и методологические аспекты интеллектуальных информационных систем
3. Головная организация
Учреждение Российской академии наук Институт систем информатики им. А.П. Ершова Сибирского отделения РАН (ИСИ СО РАН)
4. Руководитель проекта
Марчук А.Г.
5. Цель и задачи проекта
Целью проекта является исследование математических и методологических аспектов актуальных задач интеллектуализации и интеграции на информационном поле быстро растущих сводов знаний и данных, основанное на применении формальных логических, лингвистических и мультиагентных моделей.
Проект сконцентрирован на решении следующих задач.
А. Разработка методологии и программного инструментария создания интеллектуальных систем, опирающихся на разнородные источники данных (в том числе СППР).
Б. Исследование теоретических и методологических аспектов формирования и поддержки фактографических и лингвистических ресурсов.
В. Разработка и применение формально-логических методов в интеллектуальных информационных системах.
Г. Разработка математических методов описания мультиагентных систем и их применение к моделированию социальных и экономических процессов.
6. Полученные результаты
Блок А. Исследованы потребности разработчиков интеллектуальных СППР (ИСППР) и определены требования к функциональности и архитектуре типовой ИСППР. ИСППР должна быть легко настраиваема на предметную область и типы решаемых задач, а ее архитектура должна поддерживать использование данных из разнородных источников, подключение готовых модулей, реализующих методы решения требуемых задач, возможность интеграции нескольких методов в одной ИСППР.
В соответствии с этими требованиями была предложена архитектура типовой ИСППР. Основным компонентом ИСППР, как всякой интеллектуальной системы, является база знаний, ядром которой является прикладная онтология, состоящая из двух взаимосвязанных онтологий: онтологии предметной области (ПО) и онтологии задач и методов поддержки принятия решений (ЗиМППР). Первая из этих онтологий служит для настройки системы на ПО, а вторая – на типы решаемых задач. Онтология ПО задает унифицированное представление данных в системе, благодаря чему в ИССПР может использоваться информация из разнородных внешних источников данных (ВИД) и к ней могут подключаться решатели, использующие разные форматы входных и выходных данных.
Решение конкретных задач в ИСППР осуществляется методами поддержки принятия решений (МППР), реализованными отдельными модулями, за исполнение которых отвечает один из решателей. Модули хранятся в репозитарии МППР в соответствии с онтологией ЗиМППР вместе со спецификациями, позволяющими интегрировать их между собой.
Важным компонентом ИСППР является ядро ИСППР, которое обеспечивает решение следующих задач: ввод в систему очередной задачи; подгрузка из ВИД необходимых для решения очередной задачи данных; временное хранение актуальных для текущей задачи данных и их маршрутизация между подзадачами; запуск определенного решателя и передача ему текущей задачи на счет; выдача полученного результата пользователю.
ИСППР имеет два пользовательских входа – интерфейс инженера знаний/эксперта и интерфейс лица, принимающего решения (ЛПР). При этом работа с ИСППР и экспертов, и ЛПР осуществляется в терминах прикладной онтологии.
Для упрощения настройки ИСППР на предметную область была разработана Метаонтология ПО. Исследованы существующие МППР, выполнена их систематизация и классификация и на этой основе разработана метаонтология ЗиМППР и верхний уровень онтологии ЗиМППР.
Произведена частичная ревизия базовой онтологии неспецифических сущностей (BONE). Разработано платформенное решение для построения электронных архивов документов и данных. Произведены эксперименты по включению имеющихся в ИСИ научных информационных ресурсов в среду Linking Open Data (LOD-2).
Проведен анализ конкретного опыта создания хранилища данных с использованием технологий ORACLE. Концепция хранилища данных рассматривается с точки зрения максимально эффективного практического использования в банковских системах. Описано несколько подходов к построению логических схем многомерных данных, не освещенных ранее в литературе. Исследована “Концепция многомерного анализа”, основанная на принципе построения логических OLAP моделей. Рассмотрены технические стороны решения, интерфейс администратора системы и программные средства построения хранилища данных. Рассмотрены методики автоматического построения отчетов и использования инструментов ORACLE BI для анализа данных.
Разработаны методы визуализации для онтологий, в которых таксономическая часть онтологии представлена ориентированным графом. Исследованы и реализованы новые методы кластеризации и визуализации для ориентированы графов (в частности сетей цитирования).
Блок Б. Разработаны принципы и методы создания специализированных лингвистических ресурсов – глубоко аннотированных корпусов текстов из конкретных предметных областей. Эти идеи апробированы на материале 1) текстов научных публикаций по катализу (корпус «Катализ») и 2) текстов информационных сообщений о научных мероприятиях (корпус «ИнфоП»). Глубокое аннотирование корпуса текстов включает терминологическую разметку (в первую очередь, понятия предметной области) и разметку отношений (в частности, ситуаций предметной области, в которых размеченные сущности выступают в определенных семантических ролях). Разметка отношений (ситуаций) производится над терминологически размеченным текстом.
Разработана методика использования глубоко аннотированного корпуса для извлечения знаний о предметной области и ее подъязыке, в частности, для автоматизированного пополнения предметных словарей.
Терминологически размеченные фрагменты текста используются для наполнения предметного словаря-тезауруса. Отмеченная лексика обрабатывается морфологическим и синтаксическим компонентами словарной технологии, нормализуется, вносится в словарь и снабжается семантическими признаками в соответствии с разметкой. Для многословных фрагментов фиксируется синтаксический шаблон или, если такой шаблон не найден, то фрагмент добавляется как несогласованный значимый словокомплекс. Для установления тезаурусных связей используется аппарат лексических шаблонов, который позволяет обнаружить в текстах необходимые контексты и выявить термины-кандидаты на гипонимическую связанность, а размеченный корпусный материал верифицирует эту гипотезу.
Ситуационная разметка, которая включает отношения с явно выраженным предикатом, позволяет автоматизировать создание шаблонов семантико-синтаксических конструкций, в частности, моделей управления. По каждому вхождению отношения создается или уточняется модель, где в качестве предикатной лексемы выступает фрагмент, отнесенный к лексическим показателям ситуации, а в описании актантов уточняется семантический признак и добавляться морфологические ограничения на часть речи/морфологический класс, падеж, наличие предлога и т.д. Таким образом, для выбранного отношения формируется гипотеза, которая фиксирует универсальный шаблон, описывающий отношение как семантико-синтаксический интерфейс в терминах семантических и грамматических категорий.
Создание средств корпусного исследования текста позволило начать исследования различных языковых явлений в ограниченных предметных областях на материале созданных корпусов. В частности, были исследованы различные случаи референции в русскоязычном тексте, а также их корреляция с референциальными отношениями между информационными объектами (именованные сущности и другие виды дискрипции объектов в тексте). По результатам исследования разработан подход к автоматическому установлению кореференции информационных объектов, предложены методы сравнения объектов и сформулирован ряд эвристических правил, которым должны удовлетворять объекты для установления референциального отношения между ними.
Изучены различные модели и методы оценки свойств виртуальных социальных сетей, рассмотрены алгоритмы, позволяющие определять расстояния между элементами социальной сети: пользователями, связями (отношениями) между ними, сообщениями, которыми обмениваются участники сети. Для определения «важности» вершины в сети используются такие алгоритмы, как PageRank, Closeness centrality, Eigenvector centrality и др.
Проведены исследования по адаптации методов обработки текстовой информации к сетевому контенту. Основная задача проводимых исследований — семантический анализ сообщений в социальных сетях с целью выявления лидеров среди групп людей или идентификации отправителей спам-сообщений. Исследованы методы определения авторов текстов и алгоритмы вычисления характеристик сети, позволяющие анализировать слова или фразы в коротких текстовых сообщениях. В ходе исследования проанализированы различные методы установления авторства, базирующиеся на кластерном и факторном анализе, теории графов, теории вероятностей и математической статистике.
Исследованы особенности создания операторских интерфейсов для Открытого архива СО РАН, объединяющего ряд проектов по созданию цифровых архивов научного назначения. Продолжено формирование фотоархива СО РАН, в отчетном году исследовалась задача архивной обработки газет на примере фонда научно-публицистической газеты «За науку в Сибири». Создан операторский интерфейс по привязке образов статей газеты к описаниям и данным в базе данных, а также создан пользовательский интерфейс, включенный в публичный сайт http://soran1957.ru.
Блок В. Для алгебраического метода анализа формальных понятий (Formal Concept Analysis) предложено вероятностное обобщение с помощью семантического вероятностного вывода. На основе этого обобщения разработан новый метод индуктивного формирования онтологий на нечетких/противоречивых данных. Метод позволяет автоматически формировать систему понятий на основе данных естественнонаучных экспериментов, как классификационную систему устойчивую относительно шумов на данных.
Разработан алгоритм сигнатурной декомпозиции онтологий, формализуемых в дескриптивной логике EL. Данный алгоритм реализован в виде консольного приложения на языке C++ и позволяет вычислять логически эквивалентное компонентное представление онтологии в виде набора независимых или слабо зависимых между собой компонент. Данное представление позволяет выявить внутреннюю структуру взаимосвязей понятий в онтологии, выделить компоненты, которые могут быть использованы отдельно для построения новых онтологий, повысить скорость машинного вывода над онтологиями за счет использования их компонентной структуры.
Разработана концепция интегрированной модели логического вывода, основанной на применении SMT-решателей. Эта модель базируется на новом виде помеченных систем переходов — системах переходов, ориентированных на разработку средств спецификации и верификации программных и информационных систем, представленных в унифицированном формате выражений. Выражения в этой модели специфицируют запросы к SMT-решателям и средства комбинирования тактик и стратегий доказательства на базе разработанного ранее языка описания тактикалов Simple, а правила переходов (являющиеся обобщением продукционных правил) — (операционную) семантику этих выражений. Состояниями предложенных специализированных систем переходов являются алгебраические системы специального вида, в которых символы сигнатуры определяются как шаблоны вызовов функций, что делает язык запросов близким к естественному языку. Определены два класса таких систем: ориентированные на операционную семантику системы переходов и ориентированные на логику безопасности системы переходов. Ориентированные на операционную семантику системы переходов были использованы для разработки формальных концептуальных моделей СППР на базе разработанного ранее операционно-онтологического подхода к спецификации программных и информационных систем. Предложена методология такой разработки на примере СППР, используемой в системе оперативного мониторинга технологической инфраструктуры добывающих предприятий нефтегазового комплекса. Ориентированные на логику безопасности системы переходов планируется в дальнейшем использовать для проверки свойств безопасности описанной концептуальной модели СППР.
Блок Г. Предложена модель адаптивной системы управления для интеллектуальных обучающихся агентов, использующая логико-вероятностные алгоритмы извлечения знаний из данных для самообучения и адаптации. Модель апробирована на задаче управления агентом – виртуальным роботом.
Формализован и верифицирован класс мультиагентных алгоритмов для геометрической задачи о назначениях, основанных на операции рационального обмена назначений в парах. Исследована информационная сложность (количество обменов дискретными данными) этих алгоритмов, и, в частности, доказано, что для непрерывного варианта этой задачи информационная сложность не может быть ограничена сверху никакой непрерывной функцией от координат роботов и укрытий.
Предложена спецификация протокола скользящего окна как мультиагентной модели с помощью интерпретированной системы. Темпоральные и эпистемические свойства безопасности и живости протокола, а также рациональности агента-отправителя сформулированы с использованием логики знаний и времени CTL-K.
На основе мультиагентного подхода проведено моделирование государственно-частных экономических отношений при реализации масштабных совместных проектов. Разработан ряд алгоритмов (на основе монотонного протокола уступок и 1-сделок), регулирующих процесс переговоров между участниками экономических отношений. В процессе работы над созданием программного обеспечения aMoSe (Agent Modeling of System Evolution), предназначенного для обеспечения процесса моделирования реализации крупных промышленно-транспортных проектов федерального уровня, предложен формат, предназначенный для описания структуры бизнеса транснациональных компаний (ТНК). Разработана программная оснастка для прогнозирования развития ТНК РУСАЛ (в рамках заданной модели) и создан универсальный гибридный прогнозный метод для перспективной оценки спроса на алюминий. Разработана имитационная логистическая модель для определения перспективных направлений поставок продукции Богучанского алюминиевого завода на азиатский рынок (для основных центров потребления). Построена имитационная модель (на базе продукта Any Logic), демонстрирующая различные варианты поставок продукции Богучанского алюминиевого завода на китайский рынок (в рамках таких крупных промышленных центров как Шэньян и Шэньчжэнь).
7. Возможное практическое использование результатов
Разработанные методы построения интеллектуальных СППР и типовая архитектура могут быть использованы для создания такого класса систем в промышленности и медицине.
Разработанные принципы и методы семантического аннотирования корпусов текстов могут быть использованы для автоматизированного создания лингвистических ресурсов, в том числе словарей-тезаурусов, и автоматического анализа текстов деловой и научной тематики.
Базовая онтология неспецифических сущностей может быть использована для структуризации данных и документов широкой направленности, в первую очередь – научных документов и данных, включая метаданные, порождаемых научной деятельностью (публикации, отчеты, экспедиционные дневники, письма, черновики, иллюстрации и т.д.).
Разработанная платформа для создания электронных фактографических архивов документов и данных может использоваться для построения и сопровождения научных архивов документов, для накопления информации общего назначения об ученых, организациях, конференциях и т.д.
Созданные средства по включению сканированных образов газет в цифровые архивы могут использоваться для обработки старых подшивок газет с целью упорядочивания опубликованной в них информации и фиксации исторической информации о событиях и мероприятиях, интересных для анализа структуры и деятельности социума в исторической ретроспективе.
Разрабатываемые средства включения отечественных информационных ресурсов, в первую очередь архивов, в мировое формализованное информационное пространство RFD-документов по технологии Linking Open Data позволят связать данные и документы с зарубежными базами данных. И наоборот, использование зарубежных баз данных, опубликованных по технологии LOD позволит улучшить информационное обслуживание научных исследований по широкому кругу видов информации.
Разработанная модель адаптивной системы управления может быть использована для создания интеллектуальных обучающихся агентов, способных к самостоятельному выполнению задач, требующих высокую степень адаптации. Модель может быть использована как для управления агентами, решающими поставленную задачу самостоятельно, так и для управления агентами, работающими в составе мультиагентных групп. Подобные агенты могут использоваться для решения широкого круга задач, начиная с интеллектуальных компьютерных помощников и заканчивая управлением мобильными роботами. В частности, предложенная модель с успехом использовалась для создания обучающейся системы управления виртуальным роботом.
8. Публикации
Батура Т.В., Белогубова М.В., Братцев С.Г., Копылова Н.С., Мурзин Ф.А. Мультиагентные модели социодинамических процессов // Моногр. / Институт систем информатики им. А.П. Ершова СО РАН. – Новосибирск: Изд-во СО РАН, 2012. 130 с. (в редподготовке).
Батура Т.В., Мурзин Ф.А., Перфильев А.А., Шманина Т.В. Методы повышения эффективности поиска информации на основе синтаксического анализа // Моногр. / Институт систем информатики им. А.П. Ершова СО РАН. – Новосибирск: Изд-во СО РАН, 2012. 80 с. (в редподготовке).
Загорулько Г.Б., Загорулько Ю.А. Подход к разработке онтологии задач и методов поддержки принятия решений // Труды 13-й национальной конференции по искусственному интеллекту с международным участием КИИ-2012. Белгород: Изд-во БГТУ, 2012. Т. 2. С. 185–192.
Загорулько Г.Б., Загорулько Ю.А. Разработка программной оболочки интеллектуальных СППР на основе онтологий // Информационные технологии, системы и приборы в АПК: материалы 5-ой международной научно-практической конференции “АГРОИНФО-2012”. Новосибирск: Сибирский физико-технический институт аграрных проблем Россельхозакадемии, 2012. Ч. 1. С. 148–151.
Загорулько Г.Б. Разработка онтологии задач и методов для инструментария построения интеллектуальных СППР // Тр. XVII Байкальской Всероссийской конф. "Информационные и математические технологии в науке и управлении". Иркутск: Институт систем энергетики им Л.А. Мелентьева СО РАН, 2012. Т. 3. С. 43–50.
Загорулько Ю.А. Программная оболочка для построения интеллектуальных научных интернет-ресурсов // Тр. XVII Байкальской Всероссийской конф. «Информационные и математические технологии в науке и управлении». Иркутск: ИСЭМ СО РАН, 2012. Т. 3. С. 50–56.
Загорулько Ю.А., Боровикова О.И. Программная оболочка для построения многоязычных тезаурусов предметных областей, ориентированная на экспертов // Труды 13-й национальной конференции по искусственному интеллекту с международным участием КИИ-2012. Белгород: Изд-во БГТУ, 2012. Т. 4. С. 76–83.
Загорулько М.Ю., Кононенко И.С., Сидорова Е.А. Система семантической разметки корпуса текстов в ограниченной предметной области // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». М.: РГГУ, 2012. Вып. 11 (18). Т. 1. С.674–683.
Сидорова Е.А. Подход к анализу текста на основе лексических агентов // Труды XIV Международной конференции «Проблемы управления и моделирования в сложных системах». Самара: Самарский научный центр РАН, 2012. С. 753–759.
Сидорова Е.А. Проблемы разработки лингвистического обеспечения информационных систем // Тр. XVII Байкальской Всероссийской конф. "Информационные и математические технологии в науке и управлении". Иркутск: Институт систем энергетики им Л.А. Мелентьева СО РАН, 2012. Т. 3. –С. 122–129.
Сидорова Е.А., Гаранина Н.О., Загорулько Ю.А. Мультиагентный алгоритм анализа текста на основе онтологии предметной области // Труды 13-й национальной конференции по искусственному интеллекту с международным участием КИИ-2012. Белгород: Изд-во БГТУ, 2012. Т. 1. С. 219–226.
Серый А.С., Сидорова Е.А. Поиск референциальных отношений между информационными объектами в процессе автоматического анализа документов // Труды XIV Всероссийской научной конференции RCDL-2012 Электронные библиотеки: перспективные методы и технологии, электронные коллекции. Переславль-Залесский, 2012. С. 206–212
Сидорова Е.А. Технология интеллектуализации документооборота в узких предметных областях // Информационные технологии, системы и приборы в АПК: материалы 5-ой международной научно-практической конференции “АГРОИНФО-2012” Новосибирск: Сибирский физико-технический институт аграрных проблем Россельхозакадемии, 2012. Ч.1. С. 152–155.
Марчук А.Г. Фактограф: система для создания, поддержания и публикации электронных архивов // Информационные системы для научных исследований. Материалы XV Всероссийской объединенной конференции «Интернет и современное общество». Санкт-Петербург, 2012. С. 79–83.
Марчук А.Г., Марчук П.А. Платформа реализации электронных архивов данных и документов // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды XIV Всероссийской научной конференции RCDL’2012. Переславль-Залесский: изд.-во «Университет города Переславля», 2012. С. 332–338.
Ануреев И.С. Применение операционно-онтологического подхода к концептуальному моделированию систем поддержки принятия решений // Информационные и математические технологии в науке и управлении. Труды XVII Байкальской Всероссийской конференции. 2012. Том 3. С. 13–19.
Ануреев И.С. Системы переходов, ориентированные на разработку средств спецификации и верификации программных систем. Новосибирск, 2002. 29 с. (Препр./РАН. Сиб. отд-ние. ИСИ; № 165). (в ред. обработке).
Vityaev E.E., Demin A.V., Ponomaryov D.K. Probabilistic generalization of formal concepts // Programming and Computer Software. 2012. Vol. 38, №. 5. P. 219–230.
Витяев Е.Е., Демин А.В., Пономарев Д.К. Вероятностное обобщение формальных понятий // Программирование. 2012. №5. С. 18–34.
Ponomaryov D.K., Vlasov D. On definability and redundancy in EL Tboxes // Proc. 6th International Conference on Web Reasoning and Rule Systems, Vienna, Austria. Lecture Notes in Computer Science. 2012. Vol. 7497. P. 250–253.
Власов Д.Ю., Пономарев Д.К. Об определимости и избыточности в EL-теориях // Материалы IV российской школы-семинара "Синтаксис и семантика логических систем". Иркутск, 2012. С. 29–34.
Бернштейн А.Ю., Шилов Н.В. Мультиагентная задача о роботах в пространстве: информационный и криптографический аспекты // Прикладная дискретная математика. 2012. №5. С. 61–63.
Бернштейн А.Ю., Шилов Н.В. Мультиагентная геометрическая задача о назначениях: информационный аспект // Материалы XI международного семинара «Дискретная математика и её приложения». Москва: Из-во ММФ МГУ, 2012. С. 92–95.
Шилов Н.В., Гаранина Н.О., Бодин Е.В. Мультиагентные алгоритмы распределения дискретных ресурсов // Материалы IX российской конференции с международным участием «Новые информационные технологии в исследовании сложных структур». Томск: Из-во НТЛ, 2012. С.18.
Бернштейн А.Ю., Шилов Н.В. Мультиагентная задача о роботах в пространстве: сложностной, информационный и криптографический аспекты // Моделирование и анализ информационных систем. 2013. №2. 21 с. (принята в печать).
Garanina N.O. Affine Model Checking Multi-agent Sliding Window Protocol // Proceedings of Third Workshop on Program Semantics, Specification and Verification: Theory and Applications (PSSV 2012). 2012. P. 64–71.
9. Участие в конференциях, организация конференций по теме программы
Международная научно-техническая конференция «Открытые семантические технологии проектирования интеллектуальных систем» (OSTIS-2012). Минск, Белоруссия, 16 – 18 февраля 2012 г.
18-я Международная конференция «Диалог»: компьютерная лингвистика и интеллектуальные технологии. Москва-Бекасово, 30 мая – 3 июня 2012 г.
XIV Международная конференция «Проблемы управления и моделирования в сложных системах». Самара, 19-22 июня 2012 г.
XVII Байкальская Всероссийская конференция "Информационные и математические технологии в науке и управлении". Иркутск-Байкал, 30 июня - 9 июля 2012 г.
Конференция «Инженерия знаний и технологии семантического веба – 2012». Санкт-Петербург, 7-9 октября 2012 г.
5-я международная научно-практическая конференция “АГРОИНФО-2012”: Информационные технологии, системы и приборы в АПК. Новосибирск, 10-11 октября 2012 г.
XIV Всероссийская научная конференция RCDL–2012 «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». Переславль–Залесский, 15 – 18 октября 2012 г.
13-я национальная конференция по искусственному интеллекту с международным участием КИИ-2012. Белгород, 16 – 20 октября 2012 г.
XV Всероссийская объединенная конференция «Интернет и современное общество», Санкт-Петербург, 10-12 октября 2012 г.
Всероссийская конференция «XI Сибирская научная школа-семинар с международным участием SIBERCRYPT’12», 3-8 сентября 2012 г., г. Иркутск. Организатор – Томский Государственный Университет.
Междунар. суперкомпьютерная конф. «Научный сервис в сети Интернет: поиск новых решений». Организаторы: РАН и Суперкомпьютерный Консорциум Университетов России, 18-21 сентября 2012, Абрау Дюрсо.
The 6th International Conference on Web Reasoning and Rule Systems, Vienna, Austria, September, 2012 ( www.rr-conference.org/RR2012/).
3rd Global Congress on Intelligent Systems (GCIS 2012) and 3rd Word Congress on Software Engineering (WCSE 2012), Nov. 6-8, 2012, Wuhan University of Technology; Wuhan, China.
International Workshop on Enterprise Information Systems in Cloud Computing Envirionment, Nov. 11, 2012, Beijing University of Posts and Telecommunications; Beijing, China.
Руководитель проекта

страница 1
скачать
Другие похожие работы: