Отчет По третей производственной практике Исполнитель
Министерство образования и науки Украины
Донецкий национальный университет
Кафедра компьютерных технологий
Отчет
По третей производственной практике
----------------------------------------------------------------------------------------------------
Исполнитель:
студент 2 курса
специальности ИСПР
-------- -.-.
Руководитель от базы практики:
Ломонос Я.Г.
Руководитель от кафедры КТ ДонНУ:
Парамонов А.И.
Донецк – 2007
СОДЕРЖАНИЕ
Введение………………………………………………………………………….. 3
Обзор программ разбиения слова на морфы. История…………………….. 5
Роль эксперта в программе разбиения слов на морфы…...……………….. 7
2.1. Экспертные системы языковых знаний………..………………………. 7
2.2. Морфологическая интерпретация текста…………………………….... 9
2.3. Система распознавания слова…………………………………………. 11
Выводы………………………………………………………………………….. 14
Список ссылок………………………………………………………………….. 15
ВВЕДЕНИЕ
Для языкознания последних двадцати лет характерен бурный рост различных теорий, сочетающийся с экстенсивной деятельностью в описании многочисленных языков. К концу 80-х годов это привело к качественной перестройке методического арсенала лингвистики. Сегодня фундаментальные теории имеют непосредственное отношение к исследованию и моделированию человеческой духовной деятельности в целом, но при этом менее заметно стремление все в человеке объяснять как частное проявление языковой способности (как это было на исходе структуралистской эпохи конца 60-х годов). Сегодняшний интерес к фундаментальной лингвистической теории непосредственно связан и с надеждами на построение систем искусственного интеллекта, немыслимого без естественного языка или его аналога. Для лингвистов контакты с разработчиками таких систем оборачиваются дополнительным расширением технических и даже технологических возможностей, исследование больших объемов языковых данных теперь ориентировано в большей степени на новые деформационные технологии, на работу ЭВМ.
Разработка крупных лингвистических проектов, таких как Машинный фонд языка, в свою очередь, представляет собой проблему информатики нового типа – информатики «лингвистических вычислений», соединяющей средства «макровычислительной» лингвистики и «микровычислительной» лингвистики. Первая – это прекрасно разработанная область практических методик обработки больших объемов лингвистических данных; к ней зачастую и сводится понятие «вычислительной лингвистики». Под микровычислениями мы понимаем операции над отдельным языковым выражением, зачастую уходящие глубоко в психолингвистическую сущность языка; операции эти эксплицитно описываются в формальном аппарате современных лингвистических концепций и особенно детально разработаны (а потому и применимы в наибольшей степени) в таких концепциях, как расширенная стандартная генеративная модель, грамматика Монтегю, обобщенная грамматика НС, функциональная модель в различных вариантах, лексическая фонология, интерпретативная морфология и др. Глубинные принципы этих подходов, в свою очередь, мы находим в сугубо теоретических исследованиях языка задолго даже до эпохи ЭВМ. Две названные разновидности вычислительной лингвистики в основном сформировались как дисциплины, в фокусе внимания которых – соответственно речь (макровычисления) и язык (микровычисления). Мы же утверждаем, что будущее вычислительной лингвистики как главного участника в построении систем искусственного интеллекта – в более широком взаимодействии обеих ветвей ее на базе информатики, в разработке общего для них метаязыка новой информационной технологии. В свою очередь, такой метаязык будет базироваться на теоретическом наследии языкознания.
ОБЗОР ПРОГРАММ РАЗБИЕНИЯ СЛОВ НА МОРФЫ. ИСТОРИЯ
На сегодняшний день создано большое количество программ разбиения слов на морфы. Эти программы с разных сторон подходят к проблеме, и каждый автор предлагает свой вариант решения проблемы.
Система МОРФ представляет собой морфологический интерпретатор естественного языка, по замыслу пригодный для любого языка. Задаваемое на входе выражение распознается системой как слово данного языка, устанавливаются исходная словарная форма и грамматические категории этой словоформы и при желании пользователя выдаются все допустимые формы этой же лексемы, включающие в себя выбранные пользователем же граммемы.
Гиперсловарь на базе системы «Абриаль» дополнен средствами морфологической сегментации. В качестве исходных данных для этой задачи использовались правильные списки префиксных и суффиксных сегментов, а также законных русских корней, взятых из Словаря морфем Кузнецовой и Ефремовой [3]. На выходе производилось разбиение слов на максимум семь морфологических сегментов по образцу не/благ/о/по/луч/н/ый (т.е. с охватом двухсложных, но не трех- и более сложных слов). Кроме того, исходные списки правильных морфов и морфемных блоков, дополнялись правильными и ошибочными выведенными блоками. Алгоритмы сегментации основывались на здравом смысле и на визуальном анализе состава словаря, с целью максимизировать долю правильных разбиений при минимальном ручной работе по созданию исходных списков. В основном сегментация состояла в постепенном отсечении от начала или от конца слова известных правильных или рассчитанных морфемных блоков. Для определения таких корней, как вет в словах ответ, завет, привет применялось правило: если два слова начинаются на законные приставки, после которых в точности совпадают, то в начале совпадающей части следует искать корень.
Экспертная система языковых знаний Чегодаева. Построен универсальный метаязык морфологии, на котором выражается максимально широкий спектр морфологических концепций – как зарегистрированных, так и возможных. Усовершенствование метаязыка заключается не только в расширении типов языка-объекта, морфология которого может задаваться в рамках системы, но и типов концепций морфологической репрезентации и структуры языка в целом. Понимая текст, носитель языка способен дать объяснение каждому отдельному слову, опираясь при этом на свои гипотезы о морфемном составе, т.е. о «внутренней форме» слова. Морфологический интерпретатор решает свою задачу, когда адекватно моделирует эту деятельность человека, в разной степени владеющего данным языком: степень компетентности в языке может варьироваться от нуля до бесконечности.
2. РОЛЬ ЭКСПЕРАТ В ПРОГРАММЕ РАЗБИЕНИЯ СЛОВ НА МОРФЫ
2.1. Идея экспертная системы языковых знаний.
Идея создания экспертной системы возникла в 1970-х годах, когда исследователи в области искусственного интеллекта занялись построением базы знаний, обладающей элементами искусственного интеллекта. Экспертная система – программа для ЭВМ, дающая решение (на уровне эксперта) для проблем в некоторой области и обладающая:
эвристичностью, т.е. способностью производить умозаключения на основе знания фактов и формальных знаний, объединенных в теорию;
прозрачностью, т.е. способностью давать объяснения для своего выбора хода рассуждений и отвечать на вопросы о хранимых знаниях;
гибкостью в усвоении, интегрировании и использовании новых знаний по ходу работы для получения последующих своих решений.
Несколько более конкретно, эта система:
ориентирована на конкретную область экспертизы;
способна делать выводы из посылок, сформулированных не до конца четко, даже на основе недостоверных предписаний;
умеет правдоподобно объяснять ход размышлений;
факты отделяет от механизмов логического вывода;
способна пополняться по ходу и в результате работы, охватывая все более широкие наборы знаний;
обычно основана на наборе правил, в том числе – на практических правилах, формулируемых экспертом-человеком при объяснении хода мыслей;
дает прямой совет, а не заставляет спрашивающего делать нужные выводы (как было бы в случае обычных баз данных);
обладает коммерческой ценностью, в отличие от многих иных систем искусственного интеллекта, "игрушечного" типа.
Общение пользователя с экспертной системой не зависит от глубины проникновения во внутреннюю механику системы. В то же время, это регламентированное общение, поскольку нерегламентированный диалог сложен для самого человека, требует большего сосредоточения внимания, чем тот вид, который явился результатом многих лет программистских наработок со своими – широко известными в практике – приемами и уловками: "меню", подсказки варьирующейся обстоятельности, демонстрационные примеры и т.п. Там, где пользователю разрешено вводить сложные высказывания, имеем следующие проблемы:
переработка текстов как последовательности слов: интерпретация сложных синтаксических структур и перевод их в семантическое представление при учете контекста;
представление знаний внутри самой системы, разработка вспомогательных средств для формализации, хранения и поиска знаний при обработке показаний экспертов;
техника дедукции: процедуры доказательства;
- формализация объектного знания, в нашем случае – формализация знаний о языке-объекте.
2.2. Морфологическая интерпретация текста
Для разработчиков экспертной системы нелингвистических знаний этот вопрос обладает скорее практической, чем теоретической значимостью. Иное положение, когда разрабатывается экспертная система для хранения и пересмотра данных о языке: возможности системы будут различными в зависимости от морфологической концепции создателей.
Мы строим универсальный метаметаязык морфологии, на котором выразим максимально широкий спектр морфологических концепций – как зарегистрированных, так и возможных. Усовершенствование метаметаязыка заключается не только в расширении типов языка-объекта, морфология которого может задаваться в рамках системы, но и типов концепций морфологической репрезентации и структуры языка в целом.
Наше положение в этой связи таково: понимая текст, носитель языка способен дать объяснение каждому отдельному слову (не всегда это объяснение у разных носителей языка будет совпадать), опираясь при этом на свои гипотезы о морфемном составе, т.е. о "внутренней форме" слова. Морфологический интерпретатор решает свою задачу, когда адекватно моделирует эту деятельность человека, в разной степени владеющего данным языком: степень компетентности в языке может варьироваться от нуля до бесконечности.
Далее будем разграничивать понятия следующим образом. Лемматизацией будем называть идентификацию словоформы (текстовой формы слова) как представителя некоторой лексемы, хранимой в словаре. Для этого используются алгоритмы анализа словоформ, устанавливающие базисную, или основную ("заглавную"), форму лексемы. В иной формулировке лемматизация – сведeние словоизменительных парадигм (представленных словоформами) к формам, считаемым заглавными.
Морфологическая интерпретация словоформы – расширение понятия лемматизации на тот случай, когда лексема (или основа словоформы, если ее рассматривать в качестве ключа поиска) не обязательно хранится в словаре, а "вычисляется" по аналогии, на основании других хранимых единиц словаря и свойств анализируемой формы.
Например, словоформу недоперебежишь нельзя лемматизировать, если в словаре нет лексемы недоперебежать или соответствующей ей основы. Но эту форму можно морфологически проинтерпретировать, если в словаре есть лексема бежать или ее основа. В языках с богатым словообразованием морфологическое распознавание текста состоит в интерпретации словоформ.
Морфологическая интерпретация ставит следующие проблемы:
установление заглавной (фонологической и/или орфографической) формы лексических единиц, той, по которой как по ключу можно найти сведения о семантике, синтаксисе и прагматике всей лексической единицы;
двустороннее соотнесение заглавного и реального (текстового) лексических представлений.
2.3. Система распознавания слова
Ранние системы распознавания текста ориентировались, главным образом, на языки с бедной морфологией или на те, в которых легко отделить основу от флексий. Алгоритм состоял в распознавании аффиксов и/или флексий в составе словоформы (по сравнительно небольшому списку вспомогательных морфем), после чего оставшаяся часть словоформы – гипотетическая основа – искалась в лексиконе. Обычно вся эта техника выглядела как анализ справа налево. К началу 1980-х годов картина изменилась. В поле зрения попали агглютинативные языки (тюркские, финно-угорские, языки американских индейцев), с богатой и зачастую экзотической (на фоне английского) морфологией. Для них тактика "от флексии – к основе" непродуктивна. Более правдоподобна тактика "слева направо": вычисление сначала основы, а затем флексий. Появился целый ряд идей о двуступенчатости распознавания слова, о соотнесении слов одновременно на лексическом уровне и на уровне хранимых словоизменительных парадигм.
Разработанная экспертная система лингвистических знаний позволяет хранить данные о языке и выяснять, насколько удачна та или иная морфологическая концепция анализа и продуцирования форм языка. Уместно будет в общих чертах описать сначала несколько известных систем.
В "эксперте-распознавателе слов" каждое слово языка рассматривается как источник сложных экспертных знаний о процедурах понимания слова в различных контекстах. Авторы системы опирались на следующие гипотезы:
Знание языка у человека организовано, прежде всего, как знание слов, а не правил.
Понимание языка, в первую очередь, – координирование информации между модулями-миниэкспертами (составляющими большую систему "эксперта в области слов"), делящими между собой области влияния в языковом и понятийном окружении. Это значит, что большую экспертную систему для языка надо строить, базируясь на представлениях о том, как должны быть отражены нерегулярности языка, исключения из правил, и только в следующую очередь – как трактовать главные закономерности языка.
В другой концепции морфологическая обработка слова представляется как выявление внутренней структуры слова: анализ слова в виде дерева НС, где в качестве непосредственно составляющих фигурируют объединения морфов. Выделяются следующие компоненты процессора словоформ: парадигматический компонент, задающий словоизменительные ("флективные") свойства словоформ с помощью категорий рода, лица, числа, падежа, времени и наклонения; селективный компонент, задающий синтаксическую сочетаемость словоформ в виде логических выражений (приписываемых словоформе); иерархический компонент, задающий понятийные иерархии, иногда в корне отличные от деления слов на части речи; компонент зависимостей, определяющий, какие синтаксические зависимости характерны для данного слова и какую роль в них может играть слово; компонент упорядочения слов в предложении.
В третьей концепции алгоритм, работая в тексте по принципу слева направо, опирается на различительные признаки письменного текста. Число таких признаков сравнительно невелико. Распознанная графическая форма слова далее сверяется со словарем, упорядоченным в виде дерева, что позволяет быстро и легко определить "окрестность" слов, близких к данному по внешнему виду (по сочетаемости букв). В зависимости от того, каково количество слов в такой окрестности, определяется и вероятность правильности прогноза. В среднем же такая окрестность составляет два с половиной слова. Система гарантирует распознавание 85 – 100 % слов в произвольном тексте. Эта механика нашла широкое применение, на ней основано большое число работающих анализаторов слов для английского языка.
ВЫВОДЫ
Таким образом, для морфологической интерпретации текста распознавание слова сопряжено со следующими моментами:
установление лексической идентичности – идентификация лексемы, из которой вытекает набор синтаксических и семантических свойств словоформы как представителя лексемы;
построение морфологической репрезентации, отражающей словоизменительные категории, передаваемые данной словоформой.
Распознавание слова – решение трех задач:
лексический доступ – отображение речевого или письменного сигнала на представление в виде лексической формы;
выбор, или селекция – установление того, что в наилучшей степени может соответствовать речевому входу;
интеграция – включение полученного результата (то есть синтаксической и семантической информации, содержащейся в лексемах) в рамки более общих процедур.
СПИСОК ССЫЛОК
Демьянков В.З. Морфологическая интерпретация как конструирование внутренней формы слова. www.infolex.ru
Чегодаев А.В. Экспертные системы языковых знаний. charter.boom.ru
Сусов И.П. Описание языка формальном аспекте. homepages.tversu.ru
страница 1
скачать
Другие похожие работы: