Лекции №25, №26 04. 12. 2012. Естественный язык в деятельности человека
Искусственный интеллект – IV курс – День 14, лекции № 25, № 26 04.12.2012.
Естественный язык в деятельности человека
Как мы знаем, интеллектуальная деятельность предполагает создание и использование абстрактных объектов (понятий), освобожденных от второстепенных, привходящих характеристик и отражающих наиболее существенные стороны действительности. Она реализует высшую форму регуляции деятельности человека в предметной среде.
В свою очередь существенность, значимость отражаемого определяется деятельным контекстом: в процессе управляемой мышлением деятельности и в соотнесении с ее целями и средствами. Очевидно, что деятельность человека нельзя рассматривать в отрыве от его общественных отношений. В социальной среде, в условиях общественного разделения труда структура человеческой деятельности усложняется. Человек может выполнять лишь отдельные этапы решения задачи, а цель деятельности может быть связана с его непосредственными потребностями косвенным путем. При этом функции регуляции совместной и дифференцированной деятельности выполняет коммуникативная деятельность (общение), заключающаяся в обмене информацией о деятельности индивидуальной.
В качестве средства такого обмена (средства общения) используется знаковая система социального уровня – язык. Связи языковых знаков (элементов языка) с психическими явлениями и объектами психического взаимодействия объективированы в социальной группе носителей данного языка и относительно константны для нее. Каждый член группы воспринимает эти связи как данные извне, как существующие объективно, а процесс усвоения этих связей (и знаков языка) – одна из необходимых предпосылок формирования личности, включения человека в систему общественных отношений. Овладевая языком, человек приобретает детально разработанную систему объективации и реализации собственной психической деятельности, активно используемую им в ходе социальных взаимодействий.
Основными элементами языка как знаковой системы являются языковые знаки, образующие субстанцию языка. Они связаны внутрисистемными отношениями, определяющими как структуру языка в целом, так и структуру конкретных знаковых конструкций, и участвуют в отношениях с внеязыковыми объектами.
Языковой знак – материальный объект, поставленный в соответствие некоторому другому объекту и заменяющий последний в ходе деятельности (свойство знаковости). Другими словами, если некоторый объект является знаком, то он поставлен в соответствие некоторому другому объекту и способен его заменять. Отметим также, что знаки следует отличать от единиц языка: фонем, морфем и слов (в естественном языке). Фонемы свойством знаковости не обладают и служат лишь исходным материалом для построения знаков языка, а морфемы и слова являются знаками.
Второй атрибут языкового знака – его конвенциальность, или немотивированность. Это свойство означает, что устанавливается указанное соответствие соглашением людей, использующих язык (всюду в данном разделе, если специально не оговаривается иное, речь идет о языке человека). Знак может не иметь никакого сходства с объектом, в соответствие которому он поставлен, и не быть связанным с ним причинно-следственными отношениями.
Однако выбор материального объекта на роль знака не может быть произволен абсолютно. Объект должен обладать так называемыми системообразующими свойствами – необходимыми для включения его в систему языка.
К числу системообразующих свойств языка относятся дискретность («членораздельность») и неоднородность («различаемость») его элементов. Неоднородность языка проявляется и в его иерар- хичности – в языке может быть выделено несколько иерархических неоднородных уровней, единицы каждого из которых относительно однородны (морфемы – как единицы морфологического уровня, например). С особенностями речевого аппарата человека связан принцип линейности в языке – в конструкциях, построенных по правилам языка, знаки могут располагаться лишь в линейной последовательности, то есть цепочкой.
Как элементы системы (языка) знаки обладают еще рядом свойств. Связь знака с внеязыковыми объектами задается отношениями: сигматическими – связь знака с реальными объектами и явлениями действительности или отдельными аспектами их; семантическими – связь с психическими моделями соответствующих сторон реальности или с моделями реально не существующих объектов; прагматическими – связь с людьми, использующими знаки языка в своей деятельности. Синтаксические отношения (при описании естественных языков обычно рассматриваются два уровня синтаксических отношений: морфологический и синтаксический в узком смысле) характеризуют связи между знаками как элементами языка: иерархические – отношения вхождения знака в сложный знак; синтагматические – отношения взаимодействия знаков или их классов; парадигматические – отношения между элементами одного класса, например, формами одного слова.
Характеристика языка как знаковой системы, элементы которой связаны отношениями с различными сторонами действительности, полезна и при рассмотрении процессов его использования. Язык является знаковой системой социального уровня. Выбор знаков, правил их комбинирования и соотнесения с явлениями объективного и субъективного планов закреплен «общественным соглашением», которое разделяют все владеющие данным языком. Тем самым язык задает нормы интерпретации и употребления знаков. А в реальных процессах использования языка на основе этих общих норм строятся и анализируются конкретные знаковые конструкции, описывающие конкретные ситуации.
Таким образом, процесс использования языка – речевая деятельность (РД) – может быть охарактеризован как актуализация и конкретизация существующих в языке в потенциальной форме синтаксических отношений и отношений знаков с внеязыковыми объектами: выбор нужной формы слова при синтезе, установление актуального сигматического отношения с реальным объектом – денотатом и т.п. Результатом РД при синтезе является сообщение, несущее определенную информацию и о самом языке (по правилам которого оно построено), и о ситуации, в которой оно было синтезировано, и об авторе.
В структурном плане сообщение представляет собой наделенную структурой линейную последовательность знаков. Каждый знак характеризуется его позицией в цепочке и актуальными синтаксическими отношениями с другими знаками. «Нечленимые» в языке знаки – материальные оболочки «элементарных» языковых единиц (морфем, неизменяемых слов, фразеологизмов) – «воспроизводятся» в речевом произведении в готовом виде. Структурно сложные знаки строятся из составляющих по правилам языка.
Общение, или коммуникативная деятельность, предполагает наличие не менее двух носителей языка – автора сообщения и субъекта, которому это сообщение адресовано, – реципиента (в случае диалога они естественным образом поочередно «меняются местами»), а также наличие некоторой совместной деятельности, которую общение должно регулировать.
Определенное сходство в структурном и функциональном плане с естественными языками имеют и представители класса искусственных языков.
Хотя проблема соотношения естественных и искусственных языков представляется на первый взгляд (и является на самом деле) тривиальной, при ее рассмотрении часто допускаются ошибки. Одна из наиболее распространенных – абсолютизация временных и несущественных различий (существенные при этом как правило упускаются из виду), учет особенностей искусственных языков, существующих в данный момент, и неоправданный перенос выявляемых при этом различий на весь класс искусственных языков вообще. Очевидно, что в этом случае и сама проблема подменяется другой.
Единственное непреходящее отличие естественного языка от всех прочих – которые и следует называть искусственными – связано с историей его возникновения. Естественный язык – продукт, естественно-исторически возникший из объективных общественных потребностей (в первую очередь из потребности в общении, регулирующем совместную и дифференцированную деятельность) на ранних этапах общественного развития, когда человеческое познание было практически нерефлексивным и никакое активное сознательное регулирование процесса создания языка было невозможно.
Объективность существования ЕЯ объясняет, почему многие языковые реликты, исключения и нерегулярности «живут» в языке до сих пор, а попытки избавиться от них, модернизировать, улучшить язык часто заканчиваются неудачей. Для того, чтобы некоторые новшества попали в язык, «закрепились» в нем, их должно усвоить большинство носителей языка (и при спонтанном развитии языка новшества, возникшие в речи, попадают в язык лишь в этом случае). Это и есть объективация
Примечательно, что хотя существенные отклонения от общих языковых правил и норм недопустимы, индивидуальные модели ЕЯ (индивидуальные языковые модели – ИЯМ), усвоенные его носителями и определяющие особенности речи последних, могут иметь некоторое своеобразие. Они описывают своего рода «подмножество-расширение» эталонного языка, не содержащее неизвестных конкретному носителю языка знаков и правил и включающее ряд конструкций и форм, не входящих в общелитературный язык (заведомо неграмматичных) или используемых в рамках узких социальных групп (формы просторечные и разговорные, жаргонизмы, профессионализмы). Несмотря на формальную недопустимость или ограничения на употребление подобных форм, они (эти формы) не только встречаются в повседневной речи (соответствующие запреты либо вообще не входят в ИЯМ носителя языка, либо случайно или намеренно им игнорируются), но и понимаются людьми.
Понятие ИЯМ подчеркивает факт субъективного преломления естественного языка как знаковой системы социального уровня в ходе его усвоения и использования. Формирование ИЯМ – сложный и длительный процесс, включенный в процесс развития человеческой психики и детерминируемый как внешними (социальная среда), так и внутренними (индивидуальные психофизиологические особенности) факторами. Примечательно, что с уменьшением социальной группы (производственный коллектив, семья) своеобразие используемого в ней подмножества-расширения ЕЯ возрастает. И это естественно: усвоить отклонения от языка-эталона должно в этом случае небольшое число лиц.
Характерной, но не обязательно отличительной чертой любого естественного языка является его универсальность. Возникнув как средство регуляции самых разнообразных видов человеческой деятельности (протекающей в различных контекстах, предполагающей использование различных средств, направленной на различные объекты), ЕЯ может быть использован для выражения качественно различных видов содержания, для описания реальной действительности и процессов психической деятельности с разной степенью строгости, полноты, эксплицитности.
Автор сообщения, например, может описать некоторую ситуацию в весьма общих чертах и, не потеряв при этом объективно существенные (но не сочтенные им таковыми) детали, возложить задачу выявления этих деталей и дальнейшей конкретизации совместной деятельности на реципиента.
И хотя в ходе последующих языковых взаимодействий могут потребоваться новые языковые средства (необходимые для выражения новых видов информации), соответствующее расширение ЕЯ, представляющего собой открытую систему, всегда возможно. При этом способность ЕЯ служить метаязыком для себя позволяет описать такое расширение средствами самого языка.
Поскольку ЕЯ является средством объективации психической деятельности человека (построения моделей отражаемого) и средством передачи информации об отражаемом, сигматические, семантические и прагматические аспекты знаков чрезвычайно существенны в процессах использования языка. Важную роль играют и синтаксические отношения, существующие в потенциальной форме в языке или в ИЯМ и актуализируемые в РД. Возможность передачи информации с необходимостью предполагает структурированность языковых выражений, репрезентующих эту информацию, а многие тонкие оттенки содержания передаются исключительно синтаксическими средствами (например, порядком слов).
Синтаксическое значение существует в языке как система ассоциированных с данным сообщением эталонных парадигматических, синтагматических и иерархических связей с другими знаками языка – аналог «значимости» в смысле одного из лингвистов-классиков Ф. де Соссюра. Являясь соотносительной характеристикой знаков языка, оно определяет выбор некоторого знака как средства выражения других видов значения. Сигматическое значение – класс реальных объектов («денотатов», или «обозначаемых»), в соответствие которым может быть поставлено сообщение, в то время как семантическое значение отсылает к классу эталонных психических моделей денотатов (к «десигнатам», «означаемым», или «концептам»). Прагматическое значение представляет собой класс нормативно соотнесенных с сообщением действий потенциальных реципиентов или же класс действий и целей потенциального автора сообщения, побуждающих его к речевой деятельности.
Полное значение сообщения является комплексом четырех указанных видов значения. Возможны и «вырожденные» случаи. Так, например, сигматическое значение некоторых знаков может быть пустым (всегда – кентавр, в определенном временном интервале – Великий инквизитор); пустая морфа не изображается никаким знаком (хотя, например, в словоформе слов отсутствие флексии передает грамматическое значение родительный падеж, множественное число); служебные морфемы обладают лишь грамматическим и крайне абстрактным семантическим (грамматический род, число) значением.
Отметим, что для ЕЯ характерно отсутствие взаимнооднозначного соответствия между знаками и связанными с ними обозначемыми, означаемыми и действиями. Знак или сообщение называется омонимичным, если связанные с ним в языке или в речевом произведении классы обозначаемых, означаемых или деятельных актов содержат более одного элемента. Частным случаем омонимии является полисемия – наличие у слова нескольких обозначаемых (означаемых): оросительный канал ↔ канал ствола орудия ↔ канал связи с ЭВМ ↔ дипломатические каналы. Возможна и грамматическая омонимия: второй параграф ↔ о второй главе ↔ для второй главы, цинковые белила ↔ белила потолок, прием посла = посол принял <кого-то> ↔ <кто-то> принял посла.
В письменной речи (если не проставлены ударения) неразличимы формы: профессора ↔ профессора, колет ↔ колет, это все твои вещи? ↔ это все твои вещи?, а в устной (омофония) – конструкции и скота ↔ из кота. Определенный интерес представляют сходные по строению, но имеющие несовпадающие значения слова (паронимы): языковый ↔ языковой, представить ↔ предоставить (языковая колбаса ↔ языковой знак, представить справку ↔ предоставить возможность).
Если же различные знаки имеют «общее значение» и могут, в частности, заменять друг друга в сообщении (общее в синтаксическом значении, «значимости»), то их обычно называют синонимами. «Абсолютная» синонимия в ЕЯ встречается редко: языкознание = лингвистика = языыковедение; флексии -ее и -ей с грамматическим значением сравнительная степень прилагательного, находящиеся в отношении свободного чередования: весел-ее = весел-ей.
Как правило, возможность замены знака другим, то есть употребления синонима, ограничена нетождественностью «общего значения», контекстными условиями. Так, например, морфологические синонимы – флексии с «общим значением» мужской род, множественное число, именительный падеж: -ы, -и, -е, -а, -я – употребляются с существительными различных типов склонения (лингвист-ы, филолог-и, южан-е, профессор-а, кра-я). К контекстным условиям относятся также лексическая сочетаемость и стилистическая окраска. Например, замена хочу на желаю во фразе Я не хочу его видеть допустима, а во фразе Кроме нас хотят переселиться в колхоз еще несколько семей – нет.
Описывая одну и ту же ситуацию, одно обозначаемое с помощью различных синонимичных конструкций (синонимичными, естественно, могут быть и предложения, тексты), носитель языка имеет возможность переструктурировать не только сообщение, но и репрезентуемую им модель ситуации, выделять то одни, то другие компоненты и аспекты.
Согласно данному выше определению значение сообщения является комплексом эталонных для некоторого ЕЯ внутриязыковых связей знаков и ассоциированных со знаками внеязыковых объектов. А поскольку при усвоении естественного языка конкретным человеком, при формировании ИЯМ язык претерпевает субъективное преломление, отклонения от эталона имеют место и в сфере значений – субъективное сужение или расширение значения. Возможно, что отдельные виды значения при этом не меняются или меняются в разной степени. Своеобразием может отличаться и значение, ассоциированное со знаком в той или иной социальной группе (научные термины, профессионализмы, диалекты языка, жаргонизмы).
Учет субъективной и социальной соотнесенности значения (как следствие преломления языка в ИЯМ или в модели языка, общей для членов социальной группы) – необходимая предпосылка эффективного использования ЕЯ для общения между людьми, между людьми и искусственными информационными системами.
В конкретных процессах РД происходит дальнейшая модификация значения – с сообщением связываются лишь отдельные компоненты преломленного в ИЯМ значения. Подобная актуализация предполагает выбор уместных в текущем контексте аспектов семантического и прагматического (учет конкретной цели автора сообщения, особенностей собеседника) значений; установление, если это возможно, связи с обозначаемым; выбор (раскрытие) синтаксических средств выражения значения.
Соотнесенная с сообщением в реальном процессе речевой деятельности подсистема значения (виртуально ассоциированного с данным сообщением в ИЯМ носителя языка) может быть названа смыслом сообщения.
Понимание выражений естественного языка
С привлечением понятий значения и смысла сообщения можно конкретизировать описание информационного аспекта общения, регулирующего совместную и дифференцированную деятельность. Автор очередного сообщения строит его таким образом и с использованием таких (представленных в его ИЯМ) языковых средств, чтобы смысл сообщения максимально точно отображал важнейшие в текущей контекстной ситуации аспекты деятельности, преследуемые им цели. Задача же реципиента – выявить этот смысл, то есть установить те стороны значения (допустимого с позиций его ИЯМ), которые наиболее существенны в текущей ситуации с его точки зрения и которые, как он предполагает, имел в виду автор сообщения.
Подобный процесс раскрытия смысла и назван пониманием сообщения.
Понимание сообщения можно трактовать как вид интеллектуальной деятельности, обладающий всеми атрибутами ее и, естественно, всеми атрибутами психического отражения: информационностью (выявляется информация об актуальных связях знаков) и субъективностью (учитывается информация, существенная с позиций реципиента). Процесс понимания может быть прерывистым: выдвижение подцелей, возврат на предыдущие этапы и коррекция. Кроме того, он может сопровождаться адаптацией как к языку в целом, так и к особенностям ИЯМ собеседника.
В силу того, что понимание языковых выражений – один из наиболее привычных для человека видов интеллектуальной деятельности, многие этапы понимания реализуются с помощью неосознаваемых человеком средств – вторичных автоматизмов, сформированных в ходе усвоения языка.
Однако хотя построение интерпретации сообщения часто осуществляется «автоматически», и не вызывает осознаваемых субъективных трудностей, смысл, соотнесенный с сообщением реципиентом – Ср, может отличаться от смысла, ассоциированного с тем же сообщением его автором – Са. Главные причины этого: несовпадение ИЯМ, используемых конкретными носителями языка; неадекватное отражение в них языка как социального феномена; многоплановость сущности, репрезентуемой языковым выражением (негомогенность значения, потенциальная неисчерпаемость этого значения).
После того как Са объективирован в построенном автором сообщении и сообщение передано реципиенту, последний рассматривает как единственно доступные реальности только это сообщение (линейную последовательность знаков языка) и текущий деятельный контекст. Он может воспринимать этот контекст иначе, чем автор сообщения (из-за иных представлений о членении ситуации и существенности отдельных компонентов ее) и сопоставить сообщению иную интерпретацию, отображающую те аспекты, которые восприняты им. Даже и в том случае, когда основные компоненты ситуации отображены реципиентом верно (относительно Са), многогранность свойств и характеристик реальных объектов может привести к расхождению смыслов, ассоциируемых с соответствующим сообщением.
Кроме того «ключевыми» в текущем коммуникативном акте могут быть различные виды значения сообщения. Одно и то же сообщение может быть синтезировано с разными целями: установить актуальные семантические и сигматические связи и выполнить действия над соответствующими объектами, запомнить смысл сообщения и др.
Замечательный пример, иллюстрирующий возможность неправильного относительно Са выделения ключевого вида значения описан Дж. Литлвудом. В печатном тексте одной из своих работ Литлвуд не обнаружил последней фразы – Таким образом, σ следует сделать сколь возможно малым. Однако вместо нее на пустом месте в конце статьи стояла миниатюрнейшая σ. Наборщик вместо того, чтобы воспроизвести данную фразу (что он и должен был сделать по роду своей профессии), выполнил потенциально предусматриваемые ее значением действия.
Примечательно, что своеобразие восприятия смысла часто определяется устойчивыми факторами, в первую очередь социальной ролью реципиента (поэтому ошибку наборщика следует признать экстраординарной). Так, лингвиста могут заинтересовать несущественные для прочих носителей языка проявления в речи языковых закономерностей.
В силу действия подобных осложняющих факторов понимание должно предполагать ориентацию на ИЯМ автора полученного сообщения, учет целей его обращения к реципиенту, а также адаптацию и обучение, направленные на сближение используемых собеседниками ИЯМ и повышение точности отражения в них языка. Основная предпосылка близости ИЯМ – активные коммуникативные взаимодействия, протекающие в общем деятельном контексте (так, в небольшой социальной группе ИЯМ достаточно близки, хотя они, как отмечалось, могут отражать язык с искажениями). А для сближения смыслов можно использовать перефразирование сообщений, упоминавшееся в связи с синонимией, и уточняющий диалог.
Разумеется, такой диалог будет возможен и плодотворен лишь в том случае, когда реципиент осознает, что он понял сообщение «как-то не так», что в сообщении не указаны важные с его точки зрения детали: Этого просто не вынести! А что вам нужно вынести? – спросила Алиса (Л. Кэрролл, «Алиса в Стране Чудес»), что в его распоряжении вообще нет средств приписать сообщению какую-либо интерпретацию.
В тех же случаях, когда реципиент считает, что смысл сообщения раскрыт им правильно, возможно объективное несовпадение этого смысла с Са и/или с наиболее вероятной в языке интерпретацией сообщения – нормативно выделенной подсистемой значения ЯВ, которую можно назвать смыслом относительно языка (Ся).
В языке критерии выделения Ся должны быть объективными, например синтаксическими. Так, наиболее вероятная (нормативная) в русском языке трактовка фразы Мать любит дочь определяется порядком слов: мать – субъект, дочь – объект. Можно считать, что значение данного выражения включает и другую, менее вероятную интерпретацию (которую следовало бы выразить фразой Дочь любит мать) и предположить, что эта интерпретация соответствует Са. Ср может в данном случае совпасть либо с Ся, либо с Са.
Таким образом, Са – «то, что хотел сказать автор сообщения», Ся – «то, что сказано», и Ср – «то, что понял реципиент», вообще говоря могут не совпадать. Если Ср совпадает с Са, реципиент понял сообщение правильно относительно автора, если же Ср совпадает с Ся – объективно правильно. Субъективно правильное понимание имеет место в том случае, когда Ср релевантен текущей деятельности реципиента, когда реципиент сумел извлечь из полученного сообщения ценную для себя информацию.
Введенные критерии правильности независимы – понимание правильное в одном аспекте, может быть правильным и в других, а может и не быть таковым. Причем правильность трактуется как соотносительная характеристика процесса понимания. Понимание может быть правильным (или неправильным) лишь по отношению к некоторому «судие»: автору сообщения, языку, деятельности реципиента. В то же время при совпадении (близости) Са, Ся и Ср можно говорить и об абсолютно правильном понимании. Здесь, правда, возникает уже упоминавшаяся в связи с синонимией проблема описания «пространства смыслов» – причем, общего для собеседников (!) – и задания его «метрики». В пространстве смыслов, наряду с правильностью понимания, характеризующей корреляцию наиболее существенных аспектов значения, можно было бы рассматривать и полноту понимания – меру близости объемов смыслов.
Для того, чтобы добиться правильного понимания адресуемых ему сообщений, каждый из участников процесса общения должен располагать информацией об определяющей предмет общения проблемной среде, о языке (эта информация представлена в его ИЯМ), о собеседнике, в том числе и об используемой им ИЯМ, и о себе. Эта информация соответствует глобальному контексту общения.
Естественно, что при обработке очередного сообщения (отдельной фразы, абзаца и т.п.) важную роль играет и информация, почерпнутая из предшествующих сообщений (из локального контекста). Именно учет глобального и локального контекстов: предмета обсуждения, собственных целей и целей собеседника, языковых и внеязыковых связей между отдельными сообщениями – и помогает реципиенту приписать очередному сообщению наиболее уместную интерпретацию, то есть правильно понять его.
Установив, о чем идет речь в сообщении, как должна быть использована содержащаяся в нем информация, реципиент может относительно легко разрешать проблемы, возникающие при анализе чисто знаковых (синтаксических) отношений, определяющих структуру сообщения.
Иллюстрирует эти возможности способность человека:
1) выбирать «наиболее разумную» интерпретацию сообщения, отсеивая интерпретации неестественные (но формально допустимые): За безбилетный проезд и провоз одного места багажа взимается штраф 1 рубль, Сведения о войсках противника, которые помогали нашим партизанам, В черных костюмах выступают наши фигуристы, которые отделаны красными и зелеными цветами;
2) понимать неграмматичные (ошибочные) конструкции: Ошбика вслове лектор, В аудиторию вошли лектора [следует: лекторы], Предоставить [следует: представить] справку в бухгалтерию – и грамматически неоформленные квазифразы типа: ребен- спа- комнат- шир- распах- окн-;
3) определять по контексту достаточные с точки зрения текущего этапа общения аспекты значений и функциональные роли в тексте незнакомых слов и конструкций. Читатель «Алисы в Зазеркалье», например, достаточно ясно представляет себе, что произошло с головой Бармаглота (... Взы-взы – стрижает меч, Ува! Ува! И голова Барабардает с плеч!), хотя и не знает семантическое и сигматическое значения незнакомого глагола барабардать.
Примечательно, что ориентация на «высшие» аспекты значения (сигматический, семантический и прагматический), то есть на внеязыковые связи знака характерна и для более частных видов речевой деятельности. Так, согласно данным психолингвистики и при выборе слов из долговременной памяти человек ориентируется в первую очередь на их семантические значения и связи. Использование других критериев, звукового сходства, например, свидетельствует либо о невозможности обращения к семантическому уровню (незнание семантического значения слова), либо о нарушении психической деятельности (шизофрения).
В этой связи можно вспомнить знаменитую фразу Л.В.Щербы Глокая куздра штеко будланула бокра и кудрячит бокренка. Невозможность установить сигматические и семантические отношения квазислов этой фразы заставляет человека при ее анализе обратиться к чисто знаковым (синтаксическим) отношениям. Предполагая грамматическую корректность фразы, можно исследовать ее синтаксические свойства: порядок слов, словоизменение, словообразование (бокр ↔ бокр-енок). Определенные ассоциации могут возникнуть и при анализе знаковой (звуковой) структуры корневых морфем. Так, глокость может показаться кому-то очень нехорошим качеством, а глагол кудрячить может ассоциироваться либо с существительным кудри, либо с глаголами корчить или корячить, либо с названием встроенной функции CDR (рекомендуется произносить «кудр») языка Лисп.
Несомненно, «высшие» аспекты значения передаются с помощью знаковых (синтаксических) средств, а проникнуть на эти «высшие» уровни не удается, не начав анализа структуры сообщения. Однако можно предположить, что по мере раскрытия внеязыковых связей знаков – даже до завершения анализа синтаксической структуры сообщения в целом – происходит переход на уровень информационной модели описываемой ситуации. Причем выявляемая информация (семантическая, сигматическая, прагматическая) не только пополняет эту модель, но и управляет дальнейшим анализом текста.
Проблема речевых ошибок
Использование естественного языка в качестве средства общения (речевая деятельность человека) неизбежно сопровождается теми или иными нарушениями языковых правил. Такие нарушения – вне зависимости от того, обусловлены они неполнотой знаний человека о языке или же явлениями подсознания или случайными сенсомоторными «сбоями» (описки, опечатки, оговорки) – мы будем называть речевыми ошибками.
Обнаружить речевую ошибку не всегда просто. Действительно, для получателя сообщения (реципиента) внешним признаком речевой ошибки служит появление в тексте какой-либо незнакомой ему речевой единицы. Однако такая «подозреваемая» речевая единица может оказаться и правильной конструкцией или формой (например, термином), не знакомой реципиенту.
С другой стороны, абсолютно правильная на первый взгляд единица может быть ошибкой, обнаружить которую удается лишь на «высших» этапах анализа. Так, в предложении: Пуск ракеты осуществляется нажатием краской кнопки – все слова известны, синтаксические связи правильны; опечатка обнаруживается только на семантическом/смысловом уровне.
Если одним из участников общения является компьютерная система (система автоматической обработки текста – АОТ-система), положение становится еще более сложным. И лингвистические знания, и интеллектуальные способности (в том числе – в плане работы с языком) такого «собеседника» пока весьма скромны.
Отметим еще одно обстоятельство. Как бы ни разнились характер использования и назначение АОТ-систем (системы машинного перевода, работающие в пакетном режиме; системы обеспечения диалога с машиной на естественном языке), оснащение их средствами обнаружения и исправления речевых ошибок повышает устойчивость и эффективность функционирования таких систем, облегчает (в случае диалоговых систем) процесс общения человека с ЭВМ.
Классификация речевых ошибок
Первый критерий классификации речевых ошибок (в соответствии с которым ошибки подразделяются на мотивированные и случайные), связан с упоминавшимся понятием индивидуальной языковой модели. Субъективное преломление языка (как знаковой системы социального уровня) в процессе его усвоения приводит к тому, что в ИЯМ не попадают (или попадают в искаженном варианте) некоторые языковые единицы и правила языка.
Поэтому в речи конкретных носителей языка начинают проявляться некоторые индивидуальные особенности, либо вступающие в противоречие с языковыми нормами, либо нет.
В первом случае мы имеем дело с мотивированными речевыми ошибками – точнее, с ошибками, мотивированными особенностями ИЯМ конкретного носителя языка (автора текста). К ошибкам такого рода относятся, например, ошибки в словоизменении (контейнерá – в форме именительного падежа множественного числа), орфографические ошибки в основах (еденица), некоторые пунктуационные ошибки, смешение слов-паронимов (представить – предоставить), нарушение лексической сочетаемости (делать горе), искажение фразеологизмов (не так страшен черт, как его малютки).
Ошибки, обусловленные внешними по отношению к ИЯМ факторами: сбой речевого аппарата человека, несвоевременное переключение регистра клавиатуры, нажатие соседней клавиши, сбой на линии связи с ЭВМ – мы будем называть случайными. Как правило, мотивированные речевые ошибки регулярно повторяются в речи носителя языка, а случайные ошибки могут как повторяться (например, при западании клавиши), так и не повторяться. Отметим, что иногда отличить случайную ошибку от мотивированной сложно. Так, употребление слова представить вместо предоставить в контексте представлено право может быть или результатом случайной ошибки (пропуск буквы), или результатом мотивированной ошибки (смешения паронимов).
Мотивированные речевые ошибки могут различаться степенью серьезности (грамматичности). Помимо серьезных, абсолютно недопустимых грамматических ошибок – типа орфографических ошибок в основах или смешения слов – возможны и ошибки, в результате которых появляются «полуграмматичные» формы (контейнерá, сидевши), которые имеют в словарях стилистические пометы: просторечное, устарелое, разговорное, областное и др.
Следующий критерий классификации ошибок (мотивированных и случайных) связан с языковыми уровнями, нормы (правила) которых оказываются нарушенными в результате речевых ошибок. В соответствии с этим критерием речевые ошибки можно классифицировать так:
1) орфографические ошибки: пропуск одной буквы, замена одной буквы, перестановка двух рядом стоящих букв, одна лишняя буква (отдельно может рассматриваться случай удвоения буквы), замена буквы русского алфавита буквой латиницы и др.;
2) морфологические (словоизменительный уровень) ошибки: ошибки в окончаниях (флексиях) при склонении и спряжении слов (рассматриваются различные подклассы таких ошибок), употребление отсутствующих в языке форм слов, несоблюдение правил чередования в основе, употребление незнакомых вариантов слов, испытывающих колебания в роде, одушевленности;
3) синтаксические ошибки: ошибки в моделях управления слов-предикатов, пунктуационные ошибки, нарушение обычного порядка слов (в том числе, в устойчивых словосочетаниях), вставка пробела внутрь слова, пропуск пробела (в том числе, случаи слитного и раздельного написания частиц не и ни);
4) лексико-семантические ошибки: употребление слов в необычном значении, нарушение лексической сочетаемости, семантические противоречия.
Общение человека с системой ИИ (естественный язык и естественность общения)
Наиболее существенными и привлекательными (в контексте задачи общения с системой ИИ) свойствами ЕЯ являются:
- максимально широкое использование его человеком в своей повседневной деятельности (это избавляет от необходимости специального изучения формализованного языка общения с ЭВМ и от трудностей, связанных с формулировкой заданий и запросов на таком языке);
- возможность использования естественного языка для выражения качественно различного содержания с любой доступной или желательной человеку степенью строгости и полноты (что гарантирует чрезвычайную широту сферы общения – как в плане охвата самых разнообразных предметных областей, так и в плане варьирования формулировок);
- его открытость и способность служить метаязыком для самого себя (что обеспечивает расширяемость используемых языковых средств).
Эти обстоятельства (обычно упоминается первое – не только потому, что оно действительно важно, но и потому, что оно абсолютно очевидно, лежит на поверхности) служат очень серьезными доводами в пользу общения с системами ИИ именно на естественном языке. Пока исследования носили чисто экспериментальный характер, эти доводы были достаточны. Однако в наше время, для которого характерна практическая переориентация работ, возникают новые проблемы, ранее остававшиеся в тени.
Часть из них: необходимость отчуждения системы от разработчика, надежность и устойчивость ее функционирования, эффективность реализации, наличие средств сопровождения – возникает и при создании традиционного программного обеспечения. Новые моменты связаны с использованием для общения с машиной именно естественного языка.
Среди проблем, особо актуальных на нынешнем этапе исследований и разработок, укажем:
- тщательный анализ вопроса целесообразности использования ЕЯ в человеко-машинном общении;
- поиск ситуаций, в которых общение с машиной на ЕЯ оправдано технологически и эргономически;
- выявление обстоятельств, учет которых обеспечивает человеку комфортные, естественные условия общения с компьютером;
- анализ пригодности использовавшихся ранее подходов и методов в изменившихся (практическая переориентация) условиях.
Перед автором некоторого искусственного языка общения с машиной (например, языка программирования), конечно же, не стоит вопрос о целесообразности использования созданного языка по прямому назначению. При оценке такого языка речь может идти о выразительных средствах, эффективной реализуемости, легкости усвоения и т.п. Отдельные неудачные решения могут быть изменены в ходе доработки (и отражены в разного рода пересмотренных сообщениях и др.). Объективация языка заключается в создании стандартов, трансляторов, формировании круга пользователей.
Естественный же язык изначально дан разработчикам систем ИИ извне, он объективирован (и активно используется в речевой практике) в большой социальной группе носителей данного языка, которые привыкли к вполне определенным, человеческим условиям общения (в том числе, рассмотренным в начале данной главы). Если эти условия (человеческий фактор) будут игнорироваться, язык общения, возможно, сохранив внешнее сходство с тем или иным ЕЯ, потеряет главное – естественность. А учет этих условий требует от разработчиков систем ИИ очень серьезных дополнительных усилий, поскольку предполагает воссоздание (моделирование) нетривиальных человеческих механизмов работы с языком, наделение системы ИИ – как «собеседника» пользователя – основными чертами (на уровне информационных процессов) собеседника-человека.
Поэтому при создании систем ИИ практической ориентации следует тщательно проанализировать, оправданы ли интеллектуальные и материальные затраты (весьма значительные, в нынешних условиях отсутствия в нашей стране рынка готового программно-информационного обеспечения) на их разработку, экономична ли (с учетом ресурсоемкости) их эксплуатация.
Серьезная практическая задача обеспечения общения с ЭВМ на естественном языке требует серьезного и практичного подхода. В каждой конкретной ситуации необходимо учитывать основательность доводов в пользу общения с системой именно на естественном языке, помнить о реально предоставляемых пользователю удобствах (в частности, об утомительности клавиатурного ввода, о возможностях – пока весьма скромных – технических средств обеспечения общения: устройства распознавания и синтеза звучащей речи, читающие автоматы).
Стремление разработчика или заказчика не отстать от моды, создать «высокоинтеллектуальную» информационную систему, оснащенную средствами естественноязычного интерфейса, не является достаточно веским основанием, а дилетантский подход (в этой новой и чрезвычайно сложной области особенно) не только не приводит к успеху, но и дискредитирует саму идею общения с ЭВМ на естественном языке.
Рассмотрим особенности естественного языка, осложняющие его использование для общения с ЭВМ (и, разумеется, задачу автоматической обработки текстов):
ЕЯ – большая система (как термин),
ЕЯ – иерархическая система,
ЕЯ – открытая система,
Связи элементов языка обычно неоднозначны,
Отдельные носители языка используют индивидуальные модели языка,
Использование языка сопровождается речевыми ошибками,
Описания языка (построенные специалистами – лингвистами) не полны и не точны.
Задачу обеспечения естественного общения человека с машиной можно принять без каких бы то ни было оговорок. Однако ниоткуда не следует, что наиболее удобным и естественным для пользователя (и целесообразным, с точки зрения разработчика) средством такого общения будет естественный язык. Пререкания с «непонятливым» компьютером, ориентированным на ведение диалога с человеком на так называемом ограниченном естественном языке, могут потребовать более значительных усилий, чем изучение искусственного формального языка общения.
Нас интересуют ситуации, в которых необходимость использования естественного языка диктуется глубинными внутренними причинами:
- характер поручаемых системе ИИ заданий, а следовательно, и адресуемых ей сообщений таков (носит предварительный, неформальный характер), что описать их на каком-либо формализованном языке крайне трудно;
- общение пользователя с машиной происходит эпизодически и/или в очень широкой сфере (изучение специального языка общения нецелесообразно, или же он становится необъятным).
Часто в таких случаях альтернативой использованию естественного языка может служить хорошо разработанная схема «выспрашивания» нужной системе информации с помощью традиционных средств организации дружественного интерфейса (меню, опережающий ввод и др.).
Весьма интересен феномен появления гибридных знаковых систем.
Мы знаем, что конструкции естественного языка (слова, словосочетания, предложения, тексты) давно и широко используются в человеко-машинном интерфейсе.
При формулировке общих требований к диалогу часто отмечается, что диалог должен вестись на родном языке пользователя (или на другом понятном и привычном ему языке).
Вспомним:
служебные слова в языках программирования, командных и других языках;
названия позиций меню, кнопок и т.п.;
средства поддержки пользователя:
- сообщения об ошибках,
- справочная информация,
- внешняя документация.
Можно ли в подобных ситуациях говорить об общении с ЭВМ на естественном языке?
Вряд ли. Средства общения с традиционными компьютерными системами требуют предварительной экспликации, формализации той ситуации, о которой идет речь, привлечения знаний об используемых в системе способах структуризации знаний. Формулируя же адресуемые машине сообщения на естественном языке, человек может не знать: каким набором семантических единиц располагает система ИИ; в какие формальные структуры будет отображаться содержание сообщения; какие компоненты описываемой ситуации являются в настоящий момент значимыми, а какие – второстепенными.
Более того, оказавшись в абсолютно новых условиях, человек, как правило, не сможет воспользоваться штатными языками общения с компьютером. Эти обстоятельства могут оказаться решающими при выборе языка общения с машиной как для профессионала (который на очередном этапе решения задачи не располагает пока адекватной формальной моделью и вынужден по этой причине отказаться от привычного для него искусственного языка), так и для конечного пользователя (для которого содержательный уровень общения является единственно доступным).
Общение человека с системой ИИ (искусственный интеллект и естественный язык)
страница 1
скачать
Другие похожие работы: