Издателство
:. Издателство LiterNet  Електронни книги: Условия за публикуване
Медии
:. Електронно списание LiterNet  Електронно списание: Условия за публикуване
:. Електронно списание БЕЛ
:. Културни новини   Kултурни новини: условия за публикуване  Новини за култура: RSS абонамент!  Новини за култура във Facebook!  Новини за култура в Туитър
Каталози
:. По дати : Март  Издателство & списание LiterNet - абонамент за нови публикации  Нови публикации на LiterNet във Facebook! Нови публикации на LiterNet в Twitter!
:. Електронни книги
:. Раздели / Рубрики
:. Автори
:. Критика за авторите
Книжарници
:. Книжен пазар  Книжарница за стари книги Книжен пазар: нови книги  Стари и антикварни книги от Книжен пазар във Facebook  Нови публикации на Книжен пазар в Twitter!
:. Книгосвят: сравни цени  Сравни цени с Книгосвят във Facebook! Книгосвят - сравни цени на книги
Ресурси
:. Каталог за култура
:. Артзона
:. Писмена реч
За нас
:. Всичко за LiterNet
Настройки: Разшири Стесни | Уголеми Умали | Потъмни | Стандартни

Трета глава

МОДЕЛИ НА КОНЦЕПТУАЛНО-СЕМАНТИЧНИТЕ ОТНОШЕНИЯ

Сия Колковска

web | Модели на концептуално-семантичните отношения...

Най-важната част на създадената методика за автоматично разпознаване на КСО представлява конструирането на модели на КСО. На същността и състава на тези модели е посветена настоящата част на работата.

Преди обаче да пристъпим към разглеждане на моделите, ще очертаем какво е мястото на използвания тук метод за автоматично разпознаване на КСО сред другите такива методи.

 

І. Методи за автоматично разпознаване на КСО и на термини

Тъй като автоматичното разпознаване на КСО между термини и на самите термини са две тясно свързани задачи, използваните при тях методи са сходни. Ето защо в направения обзор ги разглеждаме заедно.

Методите за автоматично разпознаване на КСО и на термини може да се обединят в три групи: лингвистични, статистически и хибридни.

1. Лингвистични методи

Лингвистични методи за автоматично разпознаване на КСО използват Дейвидсън и др. (1998), Кондамин, Ребейрол (1998), Херст (1992), Л'Ом (2001), Фелиу, Кабре (2000), Фелиу и др. (2000), Сегюела, Осенак (1999), а за разпознаване на термини - Буригол (1992), Буригол и др. (1996), Ананиаду (1994), Джъстесън и Кац (1995).

Лингвистичните методи обикн. се базират на правила, откъдето идва названието им базирани на правила методи (rule-based methods). Тези правила от своя страна се основават на модели, които се прилагат в електронен текст. При съвпадение между прилагания модел и определена дума или израз в текста те се маркират като възможни представители на търсената езикова единица.

Моделите, използвани при лингвистичните методи, са различни по състав - морфологични, синтактични, лексикални или хибридни - лексикосинтактични. Морфологични модели използва напр. Ананиаду (1994) при автоматично разпознаване на термини в английски език. Тя разпознава кандидат-термините (думите, за които се предполага, че са термини) в областта на имунологията чрез морфологични модели, включващи характерни за термините съставки като напр. съставки с произход от класическите езици като ауто-, електро- и др.

Синтактичните модели също се използват главно при автоматичното разпознаване на термини. Те включват морфосинтактични характеристики (напр. NP, VP и под.) на кандидат-термините. Синтактични модели се използват от Буригол (1992), Буригол и др. (1996) при разпознаване на термини-словосъчетания във френския език (в комбинация с метод за установяване границите на термините-словосъчетания). Синтактични модели използват и Джъстесън и Кац (1995).

Лексикални модели се използват най-вече при автоматичното разпознаване на концептуално-семантични отношения. Те включват т.нар. маркери, представящи лексикалните единици, за които се предполага, че изразяват дадено КСО. Лексикални модели се използват напр. от Фелиу, Кабре (2002), Фелиу и др. (2002) при разпознаването на КСО в специални текстове на испански език.

Някои автори използват лексикосинтактични модели, които включват 1) маркери, представящи лексикалните единици, изразители на дадено КСО, и 2) морфосинтактични характеристики на съседни на тях думи. Прилагането на лексикосинтактични модели е честа практика при автоматично разпознаване на КСО. С такива модели си служат Херст (1992), Кондамин, Ребейрол (1998), Дейвидсън и др. (1998), Морин (1999), Л'Ом (2001), Ландау и Морин (1999) при осъществяване на тази задача.

Съгласно с разграничението, направено от Басили и др. (2001), мофрологичните, синтактичните и лексикалните модели са ендогенни, т.е. в тях се отразяват лингвистични особености на търсените лексикални единици. Лексикосинтактичните модели притежават особености и на т.нар. от Басили екзогенни модели, в които се отчитат характеристики на контекста, на думите, съседни на разпознаваните единици.

Моделите за автоматично разпознаване на КСО и на термини може да бъдат характеризирани и според това дали изискват предварителна обработка на корпуса, в който ще бъдат прилагани. При лексикалните модели такава предварителна обработка не е необходима. При синтактичните и лексикосинтактичните модели обаче тя е задължителна. Тъй като те включват морфосинтактични характеристики в състава си, са приложими единствено в синтактично анотиран корпус, в който са експлицирани морфосинтактичните характеристики на лексикалните единици в него. Ето защо прилагането на тези модели задължително се предшества от анотиране на съответните електронни текстове.

В някои случаи методите за автоматично разпознаване на КСО, базирани на правила, разчитат и на други типове предварителна обработка на текста. А. Кондамин напр. прилага моделите на КСО в корпус с вече установени кандидат-термини. За тази цел тя използва софтуерната система LEXTER за автоматично разпознаване на термини във френския език. Едва след откриване на кандидат-термините се прилагат модели за разпознаване на КСО род-вид и част-цяло (вж. Кондамин, Ребейрол 1998).

2. Статистически методи

Статистическите методи се използват предимно при автоматичното разпознаване на термини, но са приложими и за целите на разпознаването на КСО.

Най-популярният статистически метод за разпознаването на термини е отчитането на честотата на лексикалните единици в специален текст. За единици, при които се установява честота в определени параметри (в съчетание с някои ограничения), се предполага, че са термини. Този метод се използва в чист вид от Даган и Чърч (1994), Лористън (1994), Енгехард и Пантера (1994). Най-важното му преимущество е това, че той не зависи от терминологичната област, в която се прилага (т.нар. domain independent method). Негов недостатък обаче е невъзможността за разпознаване на голям брой термини вследствие на това, че не всички термини в един текст са с висока честота.

Друг статистически подход се основава на използването на една мярка, наречена взаимна информация (mutual information). Тя е свързана с това "колко една дума говори за другите думи" (Ананиаду 2001). Дейли и др. (1994) напр. използват тази мярка при разпознаване на двусъставни термини в английския език.

Някои автори съчетават посочените два статистически метода. Такава комбинация напр. се използва в алгоритъма, предложен от Франци и Ананиаду (1999). Те съчетават две статистически мерки, първата от които е свързана с честотата на лексикалните единици в един документ, а втората - с една мярка, която е основана на взаимната информация и се отнася за броя появи в текста на т.нар. контекстни думи (съседни на търсените термини думи). Съчетавайки двете мерки, Франци и Ананиаду въвеждат нова мярка, наречена "С / NC-value" (С-value - мярка за честотата на термините, NC-value - обща мярка за честотата на контекстните думи).

Статистически методи се използват и при автоматичното разпознаване на концептуално-семантични отношения. Майнард и Ананиаду (2000) напр. прилагат за тази цел статистически подход, основан на контекстна информация. Според някои учени (вж. напр. Фере и др. 2002) недостатък на статистическите методи при прилагането им в такава насока е невъзможността при разпознаването на отношенията да се получи информация и за техния вид.

3. Хибридни методи

При хибридните методи използването на лингвистични модели се съчетава с отчитането на статистическа информация. Басили (Басили и др. 2001) напр. прилага морфосинтактични модели в комбинация с отчитането на статистическа информация за честотата на думите.

 

ІІ. Модели на концептуално-семантичните отношения

Автоматичното разпознаване на КСО в работата се извършва с лингвистични методи. Тези методи са базирани на правила, т.е на модели1. Конструирането на модели на КСО е най-важната част на прилагана тук методика за автоматично разпознаване.

Механизмът на автоматично разпознаване на лексикални единици с помощта на модели, както се каза, е следният. Моделите се прилагат в текста, при което се търсят съвпадащите с тях думи и изрази. При откриването на такива думи или изрази те се маркират като възможни представители на търсеното КСО.

1. Характеристика на моделите. Компоненти

Конструираните в работата модели на КСО представят най-типичните езикови изкази на разпознаваните отношения в специални (химически) текстове. Те представят тези думи и изрази, които най-често изразяват дадено КСО в текста.

Създадените тук модели на КСО са два вида: лексикални и лексикално-граматични. Лексикално-граматичните модели се извеждат от лексикалните чрез включване на допълнителен компонент в тях.

Необходимостта от използването на два вида модели се определя на първо място от спецификата на разпознаваните единици. Чрез съчетаването на лексикални и хибридни модели от лексикално-граматичен тип се осигурява широк обхват и прецизност на методиката за автоматично разпознаване на КСО.

На второ място, изборът на моделите е свързан и с два други фактора, обуславящи две противоположни изисквания към тях. Използването на модели с лексикален компонент е съобразено със състоянието на корпуса, с който разполагаме. Както се каза, той не е анотиран морфологично и синтактично. Това прави възможно търсенето в него да се извършва само с лексикални модели. Ето защо основният вид конструирани тук модели са лексикалните.

В същото време обаче нашият стремеж е моделите да бъдат по-широко приложими и да бъдат съобразени с перспективите в развитието на електронните ресурси за българския език. Рано или късно и за него ще бъдат създадени терминологични корпуси с различни равнища на обработка - морфологична анотация, синтактична анотация и др.2. За да бъде създаденият модул от модели на КСО по-широко ориентиран, включваме в него и лексикално-граматични модели, които съдържат освен лексикалния и граматичен компонент. Използването на този вид модели допринася и за това да се разшири кръгът на изразите, разпознати с прилаганата методика.

Конструираните модели на КСО имат следните компоненти: маркери, елементи Х и У и евентуално лингвистична променлива. Лексикалните модели се състоят от маркери и елементи Х и У, а лексикално-граматичните модели съдържат и трети компонент - лингвистична променлива.

1.1. Маркери в състава на моделите

Лексикалният характер на моделите на КСО е свързан с това, че основният им компонент са лексеми (в определени граматични форми) или съчетания от лексеми. Именно те представят тези лексикални единици, които изразяват КСО в текста и поради това ги определяме като основен компонент на моделите.

Тези основни компоненти на моделите, които представят изразителите на КСО в текста, наричаме маркери3. Те представляват лексеми (в определени граматични форми) или съчетания от лексеми.

По изключение в два от случаите маркерите се задават не лексикално, а граматично - чрез морфологична характеристика4.

Вторият компонент на моделите са елементите Х и У, с които се означават термините, участващи в дадено КСО.

Като пример ще посочим два модела на КСО част-цяло, които имат голяма честота в химическите текстове: "Х съдържа У" и "У е съставна част на Х".В първия модел маркер за партитивното отношение между елементите Х и У е глаголната лексема съдържам във формата й за 3 л. Вторият модел включва поредица от три маркера: гл. съм в 3 л. + словосъчетанието съставна част + предлог на. Както се вижда от тези примери, някои модели се състоят само от един маркер, а други - от поредица от маркери.

Маркерите може да бъдат както пълнозначни думи, така и служебни думи. Те принадлежат към няколко части на речта - глаголи, същ. имена, прил. имена, местоимения и предлози. Най-важни са маркерите - глаголи, които присъстват в почти всички модели на КСО (в някои случаи - под формата на причастие). Те винаги са в третолична форма, тъй като изразяват отношения между обекти - нелица. Поради това не може да имат друг изказ освен третоличния.

Голяма част от конструираните модели включват повече от един маркери. Най-чести са следните съчетания от маркери:

- пълнозначен глагол (обикн. в страдателна форма или среден глагол) + предлог - вж. моделите "Х се състои от У", "У се съдържа в Х", "Х е изграден от У".

- гл. съм + съществително име + предлог - вж. моделите "У е елемент на Х", "Х е съвкупност от У".

- гл. съм + прил. име + съществително име + предлог - вж. моделите "У е съставна част на Х", "У е градивна частица на Х".

Някои от маркерите в състава на моделите са синтактично зависими от елемент Х или У и може да бъдат в ед. или мн. ч., което намира отражение в представянето им в моделите (този въпрос е разгледан по-долу в част 1.2.).

Трябва да се подчертае, че всеки от маркерите в моделите е еднакво важен, независимо от това, дали е пълнозначна дума или е предлог. Само при пълно покритие между прилагания модел и определена дума или израз в текста те може да се смятат за изразители на търсеното КСО. Достатъчно е в израза да липсва предлог, изискван от модела, за да бъде изключен от кръга на търсените езикови единици. Т. напр. глаголната форма разделя се е един от маркерите за родово-видово КСО в модела "Х се разделя на: У1...Уn". Глаголната форма разделя се не изразява родово-видово КСО сама по себе си, а само в съчетание с предлога на. С посочения модел, включващ тези два маркера в определена последователност, се разпознава поява на родово-видово КСО в израза: Монозахаридите <ОРВ> се разделят на </ОРВ> алдози и кетози. Отсъствието в текста на предлог на след глаголната форма разделя се говори, че не е налице поява на родово-видово КСО. Вж. изречението Въглеводородите се разделят чрез фракционна дестилация на смеси, което не съответства на посочения по-горе модел поради това, че непосредствено след глаголната форма разделя се е разположен друг предлог - чрез. В това изречение няма поява на родово-видово КСО5.

1.2. Елементи Х и У в състава на моделите

С елементите Х и У представяме условно термините, които участват в отношението, представено в един модел. Те не изразяват КСО. Разположени са в началото и края на моделите (в типичния случай).

Вж. напр. модела за КСО източник-продукт "У се получава от Х". Той съдържа поредицата от маркери се получава + от, които са изразители на отношението, и елементите Х и У, отнасящи се за лексикалните единици, участващи в него. С този модел откриване поява на търсеното КСО в изречението Целулозата <ОИП> се получава от </ОИП>дървесина. Елементите Х и У са представени в това изречение съответно от термините целулоза и дървесина.

В някои модели присъства само единият от двата елемента. Вж. напр. модела за партитивно КСО "Съдържа се в У", който включва само елемент У. С модели с един елемент Х или У се разпознават такива изрази за КСО, при които единият участник в отношението няма синтактичен израз в текста.

Елементите Х и У се отнасят за термини, а термините обикн. се смятат за лексикални единици с именен характер. Следователно с Х и У се представят имена и именни словосъчетания. Тази особеност на елементите Х и У би могла да се използва при автоматичното разпознаване на КСО в морфологично и/или синтактично анотиран корпус6. Тъй като корпусът от химически текстове не притежава тези равнища на обработка, е невъзможно да използваме пълноценно именния характер на елементите Х и У. Засега тяхната функция като компоненти на моделите се свежда до това да им придават завършеност и яснота, без да участват в тяхното прилагане. Това, че са разположени в началото и в края на моделите, позволява прилагането на моделите без тях. В някои случаи обаче елемент Х или У е разположен вътре в моделите (вж. напр. модела "От Х се получава У"). Тогава този елемент има по-сложен характер, като този случай ще разгледаме по-нататък в работата (вж. част 1.3.4.).

Като елементи на моделите Х и У са условни означения, които се отнасят за един или повече термини. Т. напр. моделът "У се получава от Х" представя не само изречението Целулозата се получава от дървесина., но и изречението Калциев карбид се получава от негасена вар и кокс. Във втория пример на елемента Х съответстват два термина в координация - негасена вар и кокс7.

Очевидно елементите Х и У може да бъдат както в ед. ч., така и в мн. ч. Следователно маркерите, които зависят синтактично от тях, също е възможно да бъдат в ед. или мн. ч. За да отразим това, представяме тези маркери, които зависят синтактично от елемент Х или У, и с двете им форми - за ед. ч. и за мн. ч. За отделянето на формите използваме знака /, изразяващ дизюнкция (или). Вж. един от посочените по-горе модели за партитивно КСО в пълния му вид: "Х съдържа / съдържат У".

В някои модели променящите се по число маркери са повече. Вж. напр. моделите "У е компонент / са компоненти \ на Х" и "У е съставна част / са съставни части \ на Х". В тези модели използваме и знака \ за разделяне на края на маркер в мн. число от следващ маркер в модела.

Маркерите и елементите Х и У са задължителни компоненти на конструираните тук лексикални и лексикално-граматични модели. Лексикално-граматичните модели включват и трети компонент - лингвистична променлива.

1.3. Лингвистични променливи в състава на моделите

Лингвистичните променливи са граматичният компонент на лексикално-граматичните модели. Те се задават по граматичен път - чрез граматична характеристика.

1.3.1. Термините променлива и лингвистична променлива

В логиката и математиката с термина променлива се означават тези символи, които представят определено множество от имена на обекти (индивидууми) (вж. Кондаков 1975). Променливите се използват във формули, в математически и логически изрази. Що се отнася до лингвистичната променлива, тя представлява променлива, чиито значения са думите и изразите от определен естествен или изкуствен език (вж. Заде 1976: 7).

В работата лингвистичната променлива се използва като компонент на един от видовете модели на КСО, което определя значенията й тук.

За краткост по-надолу в изложението вместо термина лингвистична променлива използваме само термина променлива.

1.3.2. Основания за включването на променливи в лексикално-граматичните модели

Включването на променлива в състава на тези модели се налага от това, че често в текста съответстващите на маркерите лексикални единици не са разположени една до друга. Между думите, които в своята последователност изразяват дадено КСО, може да има други лексикални единици, нямащи отношение към това КСО. Вж. напр. изречението Атомите са най-малката съставна част на химичните елементи, в което прил. име най-малката се намира между съответстващите на маркерите лексикални единици са и съставна част. Ако възможността за поява на прил. име между тези две лексикални единици не се вземе предвид, тези и подобните на тях случаи в текста биха останали неразпознати с конструираните тук модели. За да обхванем тези случаи, създаваме модела "У е {прил.} съставна част на Х". В него между маркерите "е" и "съставна част" се намира променлива, представяща прил. имена, които се явяват в текста в посочената позиция.

Идеята за включването на променливи в състава на някои модели възникна при преглеждането на резултатите от прилагането на първоначално конструираните модели, които бяха само лексикални. Установи се, че една значителна част от изразите за КСО остават неразпознати поради наличието вътре в тях на външни елементи. С въвеждането на компонента променлива се отразяват случаите на дистантно разположение на изразителите на КСО.

Трябва да се отбележи, че променливата е много подходяща за представяне на външните елементи в изразите за КСО. Тези елементи са непредвидими като конкретни лексикални единици. Същевременно чрез променливата може да се представя множество от думи или изрази, които не са фиксирани като конкретни лексикални единици.

1.3.3. Функция и значения на лингвистичната променлива като компонент на лексикално-граматичните модели

И така, лингвистичната променлива е компонент на лексикално-граматичните модели, който представя лексикалните единици в текста, разположени между изразяващите дадено КСО думи и съчетания. Т.е. нейната функция е да представя външните елементи в изразите за КСО. Вж. напр. променливата {прил.} в посочения по-горе модел за партитивно КСО "У е {прил.} съставна част на Х". На тази променлива съответства външният елемент най-малката в разпознатата поява на това КСО в изречението Атомите са най-малката съставна част на химичните елементи.

Функцията на променливата обуславя мястото й в модела - тя винаги е разположена между маркери8.

Лингвистичната променлива е граматичният компонент на лексикално-граматичните модели, защото се задава граматично - чрез морфологичната или синтактичната категория на думите или изразите, които представя. Морфологичната категория на думите се определя според принадлежността им към определена част на речта, а синтактичната категория на словосъчетанията зависи от синтактичния им тип. Вж. напр. променливите {прил.} и {NP}.

Начинът, по който се задава променливата, се определя от нейната функция. Тя представя външните елементи в изразите за дадено КСО, които е възможно да се предвидят само като морфологична категория (принадлежност към определена част на речта) или синтактична категория (определен вид словосъчетание). По разбираеми причини тези външни елементи са непредвидими като лексикален състав.

Граматичният начин на задаване на променливата определя нейните значения тук. Като компонент на моделите променливата има за значения думите и изразите в българския език, принадлежащи към определени морфологични и синтактични класове9.

Включването на променлива в състава на лексикално-граматичните модели допринася за разширяване на типовете изрази, които може да бъдат разпознати с конструираните модели. Това води до подобряване ефективността на прилаганата методика за автоматично разпознаване. Т. напр. появата на КСО част-цяло в изречението По състав нефтът е смес главно от течни въглеводороди. би останала неразпозната с модела "Х е смес / са смеси \ от У". Наличието на съответния модел с променлива "Х е смес / са смеси / {нареч.} от У" обаче дава възможност тази поява да бъде открита.

1.3.4. Групи лексикални единици, представяни от променливи

Представяните от променливите външни елементи са нееднородни в следния аспект. Една част от тях нямат никакво отношение към съответното КСО, докато други са свързани, макар и косвено, с него. Затова може да ги обединим в две групи:

1.3.4.1. Лексикални единици, напълно външни за КСО

Те нямат никакво отношение към изразяваното в текста КСО. Обикн. означават обстоятелство или признак. Най-често са наречия, предложни фрази и прил. имена. Такъв външен елемент е наречието широко в изречението Цинковият сулфид <ФО> се използва широко </ФО> като луминифор. Появата на функционално КСО в това изречение се разпознава с модела "Х се използва / се използват \ {нареч.} като У".

1.3.4.2. Термини, които означават участници в дадено КСО

Макар и външни елементи за това отношение, те все пак са свързани косвено с него, след като означават негови участници.

Както стана ясно, термините, означаващи участници в едно КСО, се представят в моделите от елементите Х и У, разположени в началото и в края на модела. Когато обаче тези термини се явят в текста между изразителите на дадено КСО, елементите Х и У трябва да се намират вътре в модела. За представянето на тези термини се налага да се съчетаят два компонента на моделите - елемент Х или У и променлива. Вж. модела за партитивно КСО "В {същ.}-Х се съдържа /се съдържат \ У", в който със символа {същ.} се представя елемент Х, означаващ термин-същ. име, разположен между изразителите на КСО. Срв. с модела "У се съдържа / се съдържат \ в Х", в който не се налага използването на променливи за елементите Х или У, тъй като те не са разположени между изразителите на КСО.

При прилагане на модела "В {същ.}-Х се съдържа /се съдържат \ У" се разпознава поява на партитивно КСО в изречението <ОЧЦ> В аспирина се съдържа </ОЧЦ> салицилова киселина. На променливата {същ.} съответства терминът аспирин, разположен между лексикалните единици в и се съдържа. Двете лексикални единици са елементи на израз за КСО част-цяло, а терминът аспирин е външен елемент в този израз.

Разграничаването на две групи лексикални единици, представяни от променлива, е свързано с това, че начините за нейното извеждане в двата случая са различни.

1.3.5. Подход при включването на променливи в моделите

Както се каза, лексикално-граматичните модели се извеждат от лексикални модели чрез включване в тях на допълнителен компонент променлива. При преценяването на това в кои лексикални модели е необходимо да се въведе променлива и в каква позиция, използваме следния подход. За всеки модел преценяваме има ли възможност между елементите на съответстващия му израз в текста да се появи външен елемент, който да ги раздели.

При това предвиждането на променливите, представящи термини-участници в КСО, се оказва много по-лесна задача в сравнение с предвиждането на променливи за напълно външните елементи.

1.3.5.1. В модели с променливи, които представят термини - участници в КСО

За да предвидим при кои лексикални модели между съответстващите им елементи в текста може да се яви външен елемент-термин, използваме една проста операция - словоредно разместване. Преценяваме кои от моделите може да се променят словоредно така, че елемент Х или У да се окажат вътре в тях. Т. напр. чрез словоредно разместване в модела "У се съдържа в Х" получаваме модела "В Х се съдържа У", в който елементът Х е разположен между маркерите.

Разбира се, извеждането на модели с разположен вътре в тях елемент Х или У е възможно при словоредната промяна само на някои от лексикалните модели. Само в съответстващите на тези модели изрази за КСО може да се очаква поява на термин като външен елемент.

По този начин, чрез словоредно разместване в определени лексикални модели, извеждаме всички лексикално-граматични модели, в които елемент Х или У се намира между маркерите и следователно се отнася за термин, участващ в КСО и разположен в текста между изразителите на това отношение. Смятаме, че чрез получените по този начин модели обхващаме голяма част от възможните изрази за КСО с такъв външен елемент.

1.3.5.2. В модели с променливи, които представят напълно външни елементи за КСО

Подходът за преценяване на това в кои лексикални модели е необходимо да се въведат такива променливи е по-сложен. За всеки такъв модел се преценява има ли възможност между съответстващите му думи в текста да се появи напълно външен елемент, който да ги раздели. При това, както се каза, този външен елемент е възможно да се предвиди само като част на речта, ако е дума, или като синтактичен тип, ако е фраза.

Така нашата задача се свежда до това да преценим възможни ли са напълно външни елементи в представяните от лексикалните модели изрази за КСО и ако са възможни, да предвидим от кои морфологични и синтактични класове може да бъдат. За да изпълним тази задача, отчитаме два фактора: синтактичен, който е главен, и лексикално-семантичен. На първо място се съобразяваме със словоредните правила в българския език10, определящи кои са основните словоредни модели и техните нормативни разновидности. Т. напр. основната словоредна позиция на съгласуваното определение е контактната препозиция спрямо определяемото, т.е. разположение непосредствено преди него. Определяемите от своя страна са същ. имена и именни фрази в типичния случай (вж. Граматика ІІІ 1983: 158-159). Следователно във всички изрази за КСО, които имат елемент същ. име или именно словосъчетание (които не са в първа позиция), може да очакваме появата на съгласувано определение в позиция преди този елемент. Като се има предвид, че синтактичната функция съгласувано определение е типична за прил. имена, може да очакваме появата именно на прил. имена в разглежданата позиция.

За да предвидим този случай, въвеждаме в лексикалните модели с маркери същ. име и именно словосъчетание11 променлива {прил.} в позиция преди тях. Така напр. се конструира моделът "У е един / са едни \ от {прил.} видове Х",чрез който се отчита вероятността същ. име видове да има съгласувано определение - прил. име, разположено в текста непосредствено преди него.

Вторият фактор, взет предвид при преценяването на това в кои лексикални модели е необходимо да се включат променливи, е от лексикално-семантичен характер. Известно е, че това дали една дума от дадена част на речта ще заеме определена позиция в изречението зависи и от лексикални и семантични фактори, от ограниченията, които налага лексикалната и семантичната съчетаемост върху синтактичното свързване на думите. Съчетаването на една дума с друга може да е допустимо от синтактична гледна точка, но ако има семантични ограничения върху него, то се блокира. Ето защо при създаването на моделите с променливи се съобразяваме и с лексикалната и семантичната съчетаемост. В моделите не се включат променливи за думи, които от синтактична гледна точка са възможни в една позиция, но от семантична гледна точка са малко вероятни или недопустими. Т. напр. в модела за каузативно КСО "Х има / имат за резултат У" в позиция преди маркера резултат е възможно да се яви и съгласувано определение-числително име. Както е известно, числителните имена също изпълняват синтактична функция на съгласувано определение в изречението (вж. Граматика ІІІ 1983: 162). Тази допускана от словоредните норми позиция на числ. име обаче е малко възможна в случая (особено за числителните бройни) поради ограничения от семантичен характер. Ето защо не се конструира модел *"Х има / имат за {числ.} резултат У".

1.3.6. Задаване на променливите

Както стана ясно, променливите в моделите се задават граматично - чрез морфологичната или синтактичната категория на думата или словосъчетанието, което представят.

Променливите, които представят думи, се задават чрез морфологичната категория на тези думи според това към коя част на речта се отнасят. Вж. напр. модела за партитивни КСО "У се съдържа / се съдържат {нареч.} в Х"с променлива {нареч.}. Тя представя наречията, които се явяват в текста в позиция между изразителите на това КСО съдържа / съдържат и в.

Променливите, които представят словосъчетания, се задават чрез синтактичната категория на тези словосъчетания според вида фраза, в която участват. Вж. напр. модела за партитивни КСО "Х се състои / се състоят {РР} от У", в който променливата {РР} представя предложни фрази.

Някои променливи представят както думи, така и словосъчетания поради това, че и едните, и другите може да заемат една и съща позиция в текста. Тези променливи се задават чрез посочване на съответната морфологична и синтактична категория, образуващи дизюнкция. Вж. напр. символа {прил./АР}, с който се изразява променлива, представяща думите прил. имена или словосъчетанията адиективни фрази.

1.3.7. Променливи, използвани в моделите

С оглед на функцията на променливите да представят възможните външни елементи в изразите за КСО, необходимо се оказва въвеждането на следните променливи: прил. име, същ. име, наречие, местоимение, числит. име, съюз - за променливите за думи; предложна фраза, именна фраза и адиективна фраза - за променливите за словосъчетания.

При описанието на въведените променливи отбелязваме типичната им позиция в моделите (без да изчерпваме всички позиции), а също и основанията, които налагат използването им.

А. Променливи, представящи думи

Те се означават от символи, изразяващи частта на речта, към която се отнасят.

1. Променлива, представяща прил. имена. Тя се означава от символа {прил.}.В текста й съответства дума, която е напълно външна по отношение на КСО.

Типична позиция в моделите: след маркер глагол и преди маркер същ. име или именно словосъчетание. Въвежда се, за да се обхванат случаите, при които между изразяващите дадено КСО глагол и същ. име (или именно словосъчетание) се явява външен елемент прил. име (част от именна фраза с опора - следходното същ.).

Вж. напр. променливата {прил.} в модела за партитивни КСО "У е / са {прил.} съставна част на Х". С този модел може да се разпознаят появи на това КСО, в които между изразителите му в текста е и съставна част се намира външен елемент прил. име. Като напр. появата му в изречението Атомите <ОЧЦ>са най-малката съставна част на </ОЧЦ> химичните елементи.

2. Променлива, представяща същ. имена

В текста й съответства термин, което е участник в КСО или е напълно външен елемент по отношение на КСО.

Среща се в две позиции в моделите:

2.1. Типична позиция - след маркер предлог и преди маркер глагол. Въвежда се, за да се обхванат случаите, при които между изразяващите съответното КСО предлог и глагол се намира единият от термините, който участва в това КСО. Този термин е дума. От синтактична гледна точка той е опора в предложна фраза.

За да отразим това, че променливата съвпада с елемент Х или У, използваме по-сложни символи {същ.}или {същ.}. Те означават променлива, която представя същ. име и съвпада с елемент Х или У.

Вж. напр. променливата {същ.} в модела за партитивно КСО "В {същ.}-Х се съдържа / се съдържат \ У". С този модел може да се разпознае поява на това КСО, при която между изразяващите го думи в текста "В" и "се съдържа" се намира същ. име - термин. Като напр. появата на партитивно КСО в изречението: <ОЧЦ>В аспирина се съдържа </ОЧЦ> салицилова киселина.

2.2. Позиция между маркери предлози. Въвежда се, за да се обхванат случаите, при които между принадлежащите на един израз за КСО предлози се намира термин, който е напълно външен по отношение на това КСО (т.е. не означава участник в него). Този термин е дума. От синтактична гледна точка е опора в предложна фраза.

Тази променлива се изразява от символа {същ.}. Вж. я напр. в модела за КСО източник-продукт "У се получава / се получават \ чрез {същ.} на Х".

3. Променлива, представяща наречия. Тя се изразява от символа {нареч.}. В текста й съответства дума, която е напълно външна по отношение на КСО.

Типична позиция в моделите: след маркер глагол и преди маркер предлог. Въвежда се, за да се обхванат случаите, при които между изразяващите дадено КСО глагол и предлог (въвеждащ предложна фраза) се намира наречие.

Вж. напр. променливата {нареч.} в модела за КСО източник-продукт "Х се получава / се получават {нареч.} от У". С този модел може да се разпознае поява на това КСО, при която между изразяващите го думи в текста се получава и от се намира наречие. Като напр. появата на това отношение в изречението Бром и йод <ОИП> се получават най-често от </ОИП> техни соли.

Променлива {нареч.} е най-често използваната променлива в моделите. Това се дължи на словоредните особености на българския език. Наречията в научни текстове обикн. са от типа наречия за логическо уточняване (главно, предимно и др.), а тяхната типична позиция като части на изречението - обстоятелства е позицията непосредствено след глагола-сказуемо (вж. Георгиева 1974: 50). За да предвидим възможната поява на наречия-обстоятелства в тази позиция, въвеждаме в много от моделите с компонент глагол посочената променлива.

4. Променлива, представяща числителни имена. Тя се изразява от символа {числ.}. В текста й съответства дума, която е напълно външна по отношение на КСО.

Среща се в две позиции в моделите:

4.1. След маркер предлог и преди маркер същ. име. Въвежда се, за да се обхванат случаите, при които между изразяващите дадено КСО предлог и същ. име се намира числ. име (част от именна фраза с опора - следходното същ.).

Вж. напр. променливата {числ.} в модела за КСО част-цяло "Х се извършва / се извършват в {числ./местоим.} етапа: У1, У2...Уn". В модела тя е в дизюнкция с променлива {местоим.},което означава, че двете категории думи може да заемат една и съща позиция в текста. С този модел може да се разпознае поява на партитивното КСО, при която между изразяващите го думи в текста в и етапа се намира числ. име. Като напр. появата на това отношение в изречението Окисляването на металите <ОЧЦ> се извършва в два етапа: </ОЧЦ> окислително-редукционен процес и обменна реакция.

4.2. След маркер глагол и преди маркер същ. име. Въвежда се, за да се обхванат случаите, при които между изразяващите дадено КСО глагол и същ. име се намира числ. име (част от именна фраза с опора - следходното същ.). Разглежданата позиция на променливата се илюстрира от модела "Х е / са {числ. / прил.} вида / видове: У1...Уn". В него тя е в дизюнкция с променливата {прил.}.

5. Променлива, представяща местоимения

Повечето от учените, които използват базирани на правила методи при автоматичното разпознаване на КСО, избягват включването на местоимения в моделите. Според тях моделите, създадени с такава цел, не би трябвало да съдържат дейктични и анафорични думи (вж. напр. Кондамин, Ребейрол 1998). По принцип приемаме тази позиция, тъй като действително наличието на местоимения създава някои проблеми пред автоматичното разпознаване. Понякога обаче тяхното включване в моделите като променливи е наложително. То допринася за разширяване на кръга изрази, разпознавани с моделите на КСО.

Променливата местоимение се изразява от символа {местоим.}. В текста й съответства дума, която е напълно външна по отношение на КСО.

Среща се в две позиции в моделите:

5.1. След маркер предлог и преди маркер същ. име. Въвежда се, за да се обхванат случаите, при които между изразяващите дадено КСО предлог и същ. име се намира външен елемент местоимение (част от именна фраза с опора - следходното същ.).

Вж. напр. променливата {местоим.} в моделите за партитивно КСО "Х преминава / преминават през {числ./местоим.} етапа - У1, У2...Уn"и "В {местоим.} състав влиза / влизат У.

5.2. След маркер същ. име и преди маркер глагол. Въвежда се, за да отрази случаите, при които между изразяващите дадено КСО същ. име и глагол е разположен външен елемент местоимение (представляващо клитика).

Вж. напр. променливата {местоим.} в модела за партитивно КСО "В състава {местоим.} влиза / влизат У". С този модел може да се разпознае поява на това КСО, при която между изразяващите го думи "състава" и "влиза" се намира местоимение. Като напр. появата в изречението <ОЧЦ> В състава им (на етеричните масла) влизат </ОЧЦ> въглерод, водород, кислород и в много редки случаи азот и сяра.

Като външни елементи в изразите за КСО е най-вероятно да се явят няколко типа местоимения. Именно те се представят от променливата {местоим.}. Тези типове местоимения са следните:

а) Притежателно местоимение (в някоя от третоличните форми на пълната или кратката му форма). Вж. за илюстрация два модела за партитивното КСО:

"В {местоим.} състав влиза / влизат У" (тук с променливата се представя притежателно местоимение в пълната му форма - негов, негова, техни и т.н.);

"В състава {местоим.} влиза / влизат У" (тук с променливата се представя притежателно местоимение в кратката му форма - му, й, им и т.н., т.е. клитика).

б) Показателно местоимение. Вж. за илюстрация моделаза родово-видови КСО "У е / са {местоим.} {същ./NP}-Х, предлог?[който / чийто] / причастие". В него променливата {местоим.} е в дизюнкция с други променливи12.С този модел може да се разпознае поява на родово-видово КСО в изречението Хомогенни системи <ОРВ> са тези химични системи, в които </ОРВ> не се различават нееднородни частици.

В посочения модел променливата {местоим.} представя не само показателни, но и обобщителни местоимения.

в) Обобщително местоимение. Вж. за илюстрация посочения по-горе модел, с който се разпознават и появи на родово-видовото КСО с външен елемент - обобщително местоимение. Напр. в изречението: Качествени замърсители <ОРВ> са всички вещества, които </ОРВ> са нови за природната среда - пестициди, повърхностно-активни вещества.

г) Неопределително местоимение. Най-голяма е вероятността като външен елемент да се яви едно от неопределителните местоимения - няколко. Променливата представя това местоимение в моделите за партитивно КСО с маркери етап, фаза и стадий като напр. в модела "Х преминава през {числ./местоим.} фази - У1, У2...Уn".

6. Променлива, представяща съюзи. Тя се изразява в модела от символа {съюз}

Тази променлива се въвежда, за да се представят тези съюзи, които е най-вероятно да се явят между думите и съчетанията, изразяващи дадено КСО в текста. Преценява се, че такива са съчинителните съюзи и и или. За тях е най-вероятно да се явят като външен елемент в изразите за КСО.

Типичната позиция на тези съюзи в моделите е между маркер глагол и маркер предлог (въвеждащ предложна фраза). Вж. напр. модела за партитивно КСО "У се съдържа / се съдържат \ {съюз} в Х". С този модел може да се разпознаят появи на това КСО, при които между изразяващите го думи се съдържа и в се намира съюз и или или. Като напр. появата в изречението Той (метанът) <ОЧЦ> се съдържа и във </ОЧЦ> вулканичните газове, и във въглищните пластове.

Съюзите и и или е възможно да са употребени в едностранна координацияили като първи компонент на съответните двойни съюзи или-или и и-и (вж. примера по-горе). Във втория случай двойният съюз въвежда два термина, представящи единия участник в дадено КСО13.

Б. Променливи, представящи словосъчетания

Те се означават от символи, изразяващи синтактичната им категория според вида фраза, напр. {NP} или {АP}.

1. Променлива, представяща именно словосъчетание

В текста й съответстват лексикални единици и от двете групи: термин, който е участник в дадено КСО и термин, който е напълно външен за съответното отношение.

1.1. Типична позиция - след маркер предлог и преди маркер глагол. Въвежда се, за да отрази случаите, при които между изразяващите съответното КСО предлог и глагол се намира единият от термините, който участва в това КСО. Този термин е словосъчетание. От синтактична гледна точка той е опора в предложна фраза.

За изразяването на тази променлива (както и при съответните променливи-същ. имена) използваме по-сложни символи {NP}и{NP}.С тях се изразяват променливи-именни фрази, които съвпадат с елемент Х или У.

Разглежданата променлива обаче представя именно словосъчетание, чиято синтактична позиция в предложното словосъчетание може да бъде заемана и от същ. име. Това налага да представим променливата {NP} в дизюнкция с променливата {същ.}, като обединим техните символи в общи символи {същ./NP}и {същ./NP}. Тези символи изразяват променливи същ. или именни фрази, които съвпадат с елемент Х или У.

Вж. напр. променливата {същ./NP} в модела за партитивно КСО"В състава на {същ./ NP}-Х влиза / влизат У".

1.2. Позиция между маркери предлози. Въвежда се, за да се обхванат случаите, при които между предлозите, принадлежащи на един израз за КСО, се намира термин-словосъчетание, който е напълно външен за това отношение. От синтактична гледна точка той е опора в предложна фраза.

Тази променлива се изразява от символа {NP}. Представяното от нея именно словосъчетание обаче може да се яви в една и съща позиция със същ. име (в рамките на предложната фраза). Ето защо и в този случай двете променливи образуват дизюнкция и се представят от общ символ {същ./NP}. Този символ изразява променливи същ. или именна фраза, които са напълно външни елементи за съответното КСО.

Вж. променливата {същ./NP} в модела за КСО източник-продукт "У се получава / се получават\ чрез {същ./NP} на Х".

Както се вижда, в моделите използваме два различни символа за изразяването на променливите същ. имена и именни словосъчетания от двете групи. За променливите, които представят напълно външни за съответното КСО термини, използваме символа {същ./NP}. За променливите, които представят термини-участници в КСО, използваме символите {същ./NP} или {същ./NP}.

2. Променлива, представяща предложно словосъчетание. Тя се изразява в модела от символа {РР}. В текста й съответства словосъчетание, което е напълно външно за съответното КСО.

Типична позиция в моделите: след маркер глагол и преди маркер предлог. Въвежда се, за да се обхванат случаите, при които между изразяващите дадено КСО глаголи и предлог (въвеждащ предложна фраза) се намира друга предложна фраза.

За илюстрация вж. модела за партитивно КСО "У се съдържа / се съдържат {РР} в Х". С този модел може да се разпознае поява на това КСО, при която между думите се съдържа и в е разположена предложна фраза. Като напр. появата в изречението Захарозата <ОЧЦ> се съдържа в най-голямо количество в </ОЧЦ>захарното цвекло. В това изречение на променливата {РР} съответства предложното словосъчетание в най-голямо количество.

3. Променлива, представяща адиективно словосъчетание. Тя се изразява в модела от символа {АР}. В текста й съответства словосъчетание, което е напълно външно за съответното КСО.

Типична позиция в моделите: след маркер глагол и преди маркер същ. име или именно словосъчетание. Въвежда се, за да отрази случаите, при които между изразяващите дадено КСО глагол и същ. име (или именно словосъчетание) в текста се явява външен елемент адиективно словосъчетание (като част от именна фраза с опора - следходното същ.). Това словосъчетание обаче може да заема една и съща позиция в текста с прил. име. Следователно променливата {АР} образува дизюнкция с променливата {прил.}, което налага представянето им чрез един общ символ {прил./АР}.

Вж. напр. променливата{прил./АР} в модела за родово-видово КСО "У е {прил./АР} представител на Х".

И накрая трябва да обърнем внимание върху това, че макар повечето модели да съдържат по една променлива, се конструират и по-сложни модели. Те включват две променливи, които са разположени една след друга и двете заедно се намират между маркери. С тези модели се разпознават изрази за КСО, в които външните елементи се намират един след друг в текста. Вж. напр. модела за партитивно КСО "В състава {местоим.} {РР} влиза / влизат У",който включва две последователни променливи - {местоим.}и {РР}. Те са разположени между маркерите състава и влиза. С този модел може да се разпознае поява на партитивно КСО в изречението В състава му (на меда) в малки количества влизат голям брой химични елементи, в което има два външни елемента - кратката местоименна форма "му" ипредложното словосъчетание "в малки количества".

Вж. и модела за КСО източник-резултат "От {същ. /NP}{нареч.} се получава / се получават У". Той включва две променливи - {същ. /NP}и {нареч.}, които представят два различни типа външни елементи - 1) термин-участник в съответното КСО и 2) наречие, което е напълно външен елемент за това КСО.

Трябва да се подчертае, че това разположение на променливите е различно от случаите, при които с един символ се изразяват две (или повече) променливи, образуващи дизюнкция. На обединените в един символ променливи съответстват външни елементи, които се реализират в една позиция, т.е. не може да присъстват едновременно в текста.

 

ІІІ. Производни лексикални модели на концептуално-семантичните отношения.

1. Основания за използването на производни лексикални модели

Както се каза, при конструиране на моделите се съобразяваме с два фактора, които налагат две противоположни изисквания към състава им. Първият фактор е свързан със състоянието на химическия корпус, в който няма морфологично и синтактично равнище на анотация. Вторият фактор е свързан със стремежа моделите да бъдат по-широко приложими в различни като тип и равнище на обработка корпуси.

За да удовлетворим и двата фактора, избираме следното решение. Първоначално конструираме лексикални и лексикално-граматични модели. Вторият вид модели съдържат и компонент променлива, която се задава чрез граматични (морфологични и синтактични) характеристики. Първоначално създаденият модул от модели е с по-широка приложимост, като е възможно да се използва в терминологични корпуси и корпуси на общоупотребимия език, които притежават необходимите равнища на анотация. Той е съобразен, както се каза, с перспективите в развитието на електронните ресурси за българския език.

За да приложим лексикално-граматичните модели в нашия корпус, е необходимо да извършим морфологично и синтактично анотиране на съдържащите се в него лексикални единици, което от своя страна изисква други предшестващи равнища на обработка (лематизиране, парсиране и др.). Анотирането на корпуса е трудоемка и освен това странична за нас задача, която би забавила същинската работа по автоматичното разпознаване на КСО. Ето защо избираме едно друго решение, което е единствено възможно засега.

Трансформираме лексикално-граматичните модели в изцяло лексикални чрез заместване на граматичния им компонент в лексикален. Получените в резултат на това превръщане модели наричаме производни лексикални модели, за да ги разграничим от първоначално конструираните лексикални модели. Именно производните лексикални модели (заедно с първоначално конструираните лексикални) прилагаме при автоматичното разпознаване на КСО.

И така, модулът от модели на КСО се състои от два подмодула. Първият подмодул включва лексикалните модели и лексикално-граматичните модели, които са изведени от първите с цел да се гарантира разпознаването и на изрази за КСО с външен елемент.

Вторият подмодул включва производните лексикални модели, изведени от лексикално-граматичните модели.

Чрез създаването на този по-сложен модул от модели на КСО се удовлетворяват и двата посочени по-горе фактора.

Производните лексикални модели включват променливи, които са зададени лексикално - чрез по-общи характеристики или чрез списък от конкретни лексикални единици. Използваните лексикални променливи ще представим заедно с разглеждане на операциите за конструиране на съдържащите ги модели.

2. Конструиране на производните лексикални модели

Конструирането на производните лексикални модели не води до особено усложняване на прилаганата методика, тъй като операциите, използвани за тази цел, не са сложни.

Трансформирането на лексикално-граматичните модели в лексикални става чрез заместване на граматичния им компонент (граматична променлива) с лексикален компонент (лексикална променлива). Използваните за тази цел операции са следните:

2.1. Операции за трансформиране на граматичния компонент на лексикално-граматичните модели в лексикален

2.1.1. В лексикално-граматични модели с променлива, която представя думи

Всички променливи, които представят думите от определени морфологични класове (прил. име, наречие, числ. име, местоимение, същ. име), заместваме с лексикална променлива, която представя лексикалните единици-думи в българския език. С нея представяме външните елементи в изразите за КСО в текста, които са думи, без да се интересуваме от това към коя част на речта принадлежат.

За означаването на тази променлива използваме символа {лексема}. Трябва да уточним, че в случая с този символ означаваме всяка дума (по-точно стринг - поредица от знаци между две шпации, интервала) в текста. Тук символът {лексема} се използва именно в този смисъл и не се свързва с утвърденото в лексикологията значение на термина лексема.

Въпреки своето широко значение променливата {лексема} притежава достатъчно разграничителна сила поради своята позиция в моделите. Разположена между определени маркери, тя показва, че между съответстващите им лексикални единици в текста има дума и така спомага за разпознаването и на тези случаи. Т. напр. с модела за каузативни КСО "Х води / водят {лексема} до У" се разпознават всички изрази за това КСО, в които между изразяващите го лексикални единици водя/водят и до има външен елемент дума.

Извеждането на производните лексикални модели с променлива {лексема} става чрез следната операция. Във всички лексикално-граматични модели с граматична променлива, представяща думи, заместваме тази променлива с лексикалната променлива {лексема}. Т.е. извършваме заместванията {прил.} {лексема}, {същ.} {лексема}, {нареч.} {лексема}, {числ.} {лексема} и {местоим.} {лексема}.

По-този начин напр. моделът за каузативно КСО "Х води / водят {нареч.} до У" трансформираме в лексикален модел "Х води / водят {лексема} до У".

Тези граматични променливи, които образуват дизюнкция и са представени с един символ, също заместваме с променлива {лексема}. Вж. напр. модела за партитивно КСО "Х преминава / преминават през {числ. / местоим.} етапа - У1, У2...Уn" , който трансформираме в лексикалния модел "Х преминава / преминават през {лексема} етапа - У1, У2...Уn".

Операция на заместване прилагаме и в моделите, които включват маркера причастие. Както се каза, това е единият от двата маркера, зададени с граматична характеристика, който се използва само в няколко модела на родово-видово КСО. Маркерът причастие заместваме с лексикалния маркер лексема се?. Символът ? означава, че елементът, след който се намира (в случая елемент се), се среща нула или един пъти в даден израз. Т.е. или не се среща, или се среща един път. С маркера причастие се? се разпознават и двата структурни типа причастия - състоящите се само от един елемент и тези, които имат разделно оформена структура, включвайки и втори елемент се (като образувани от средни или възвратни глаголи) - напр. състоящ се.

По този начин, чрез заместване на маркера причастие с лексикален маркер, трансформираме модела за родово-видово КСО "У е / са {същ./NP}-Х, предлог ? [който / чийто] / причастие" в модела "У е / са {същ./NP}-Х, предлог? [който / чийто] / лексема се?. За да разпознаем причастието с този лексикален модел, разчитаме на това, че то обикн. заема позиция непосредствено след запетаята в съответстващите изрази за родово-видово КСО в текста14.

2.1.2. В лексикално-граматични модели с променлива, която представя словосъчетания

Променливите, които представят словосъчетания от определени типове (предложни, именни и адиективни словосъчетания), заместваме с лексикална променлива, която представя лексикалните единици-словосъчетания в българския език. С нея представяме външните елементи в изразите за КСО в текста, които са словосъчетания, без да се интересуваме от това какъв е техният синтактичен тип.

За означаването на тази променлива използваме символа {лексема+}. Символът + (т.нар. Kleene plus) се използва в математически изрази и поставен след определен елемент, означава, че този елемент се среща веднъж или два или повече пъти последователно в даден израз. В случая символът + означава, че на променливата {лексема+} съответства външен елемент, който се състои от две или повече думи (по-точно стринга) в съответния израз за КСО.

И променливата {лексема+}, въпреки широкото си значение, притежава достатъчно разграничителна сила поради своята позиция в моделите. Разположена между определени маркери, тя показва, че между съответстващите им лексикални единици в текста има поредица от думи и така спомага за разпознаването и на тези случаи. Така напр. с модела за функционални КСО "Х се използва / се използват \ {лексема+} като У" се разпознават всички изрази за това КСО, в които между изразяващите го думи се използва/се използват и като има външен елемент, състоящ се от две или повече думи. Вж. разпознатата с този модел поява на функционално КСО в изречението По-леките нефтени фракции <ФО> се използват след подходящо разделяне като </ФО>горива. В случая на променливата {лексема+} съответства външен елемент - предложно словосъчетание.

Извеждането на производните лексикални модели с променлива {лексема+} става чрез следната операция. Във всички лексикално-граматични модели с граматична променлива {АР}, {NP} и {РР} заместваме тази променлива с лексикалната променлива {лексема+}. Т.е. извършваме заместванията {АР} {лексема+}, {NP} {лексема+}, {РР} {лексема+}.

Т. напр. лексикално-граматичния модел за функционални КСО "Х се използва / се използват {РР} като У" трансформираме в лексикалния модел "Х се използва / се използват \ {лексема+} като У".

При тези граматични променливи, които са в дизюнкция и едната от тях представя дума, а другата - словосъчетание, извършваме същото заместване. На това условие отговарят променливите {същ./NP} и {прил./АP}, които заместваме с лексикалната променлива {лексема+}. Т.е. извършваме заместванията: {същ./NP} {лексема+}, {прил./АP} {лексема+}.

Така напр. лексикално-граматичния модел "В {същ./NP}-Х се съдържа / се съдържат У" трансформираме в лексикалния модел "В {лексема+} се съдържа / се съдържат У".

2.1.3. В лексикално-граматични модели с променлива, която представя служебни думи

Променливите, които представят служебни думи, заместваме с променлива, също зададена лексикално, но чрез списък от думи. Всъщност в лексикално-граматичните модели използваме само една такава променлива - {съюз}. Като компонент на тези модели тя представя съчинителните съюзи и и или. Това е основание да я заместим с лексикалната променлива {и / или}. С нея представяме външните елементи в изразите за КСО, които са съюзи и и или.

Всички лексикално-граматични модели, които съдържат променлива {съюз},трансформираме в лексикални модели чрез заместването й с лексикалната променлива {и /или}. Така модела "У се включва / се включват {съюз} в Х" трансформираме в модела "У се включва / се включват {и/или} в Х".

Същия подход следваме и при заместването на втория маркер в работата, зададен с граматична характеристика - маркера предлог, използван в няколко модела на родово-видовите КСО. Заместваме го с лексикален маркер, който задаваме чрез списък от тези предлози, които е възможно да се явят като външни елементи в съответните изрази за КСО.

Така напр. в лексикално-граматичния модел за родово-видово КСО "У е / са {същ./NP}-Х, предлог? [който / чийто] / причастие" заместваме маркера предлог с лексикалната променлива {в / с / за / на / при / до / от / под / над / през / чрез}. След извършване и на другите замествания в него получаваме лексикалния модел: "У е / са {лексема+}, {в / с / за / на / при / до / от / под / над / през / чрез}? [който / чийто] / лексема се?".

Използването на модели с лексикална променлива не води до понижаване ефективността на прилаганата методика за автоматично разпознаване. Дори и когато заместваме граматичната променлива с по-широка по значение лексикална променлива, това не се отразява чувствително върху показателите на методиката15. Особено важно е и това, че извеждането на производните лексикални модели (които са само една част от всички прилагани в корпуса модели) не усложнява особено използваната методика.

Дори и при по-сложни лексикално-граматични модели, съдържащи повече от една променлива, трансформирането им в лексикални модели не създава затруднения. В тези случаи двете граматични променливи се заместват с една лексикална променлива {лексема+}. Това е възможно поради достатъчно широкото й значение. Напр. моделът за партитивно КСО "В състава {местоим.} {нареч.} влиза / влизат У" се трансформира и прилага във вида "В състава {лексема+} влиза / влизат У". Лексикалната променлива {лексема+} в него съответства на двете граматични променливи {местоим.} и {нареч.}. Това означава, че тя се отнася за външни елементи от две различни морфологични категории в съответния израз за КСО. Вж. напр. разпознатата с посочения модел поява на КСО в изречението В състава им (на кофакторите) често влизат витамини.

Трябва да се отбележи и това, че въведените лексикални променливи са напълно съобразени с възможностите на използваната в работата софтуерна програма CLaRK.

И накрая може да обобщим казаното във втора и трета част на тази глава по следния начин.

Моделите на КСО представят най-типичните езикови изкази на разпознаваните отношения в специални (химически) текстове.

Първоначално се конструират лексикални и лексикално-граматични модели, които се състоят от два компонента: маркери и елементи Х и У. Освен тях лексикално-граматичните модели включват и трети компонент - променливи.

Маркерите са основният компонент на всички модели. Те представят тези лексикални единици в текста, които (сами или в съчетание с други единици) изразяват КСО. Маркерите представляват лексеми (в определени граматични форми) или съчетания от лексеми.

Елементите Х и У се отнасят за термините, които участват в отношението, представено в един модел. Те са разположени в началото и края на моделите (в типичния случай).

Променливите представят тези лексикални единици в текста, които определяме като външни, тъй като се намират в позиция между изразителите на КСО. В лексикално-граматичните модели променливите се задават по граматичен път - чрез морфологичната или синтактичната категория на думите или изразите, които представят. В тези модели са използвани следните променливи: {прил.}, {същ.}, {нареч.}, {числ.}, {местоим.}, {съюз}, {NP}, {АP} и {РP}.

За да бъдат приложени в корпуса, лексикално-граматичните модели се трансформират в производни лексикални модели. Те включват лексикална променлива, която се задава по-общо (като {лексема} или {лексема+}) или чрез списък от думи.

 

ІV. Моделите на КСО в синтактичен и морфологичен аспект

В края на тази глава ще разгледаме един проблем от по-друг характер, който е свързан с някои особености на моделите на КСО в синтактичен и морфологичен аспект. Тези особености имат отношение към методите за тяхното конструиране - проблем, който разглеждаме в следващата глава на работата. Тъй като много от моделите се извеждат от други модели чрез преобразувания от морфологичен или синтактичен характер, е необходимо да изясним, макар и накратко, синтактичната природа и някои морфологични особености на моделите.

1. Моделите на КСО от синтактична гледна точка

Разгледани от синтактична гледна точка, преобладаващата група модели имат структура на изречения (напр. "Х съдържа У", "Х е част на У".). Някои от тях по структура са именни фрази (напр. "Х, съдържащ У").

Моделите със структура на изречения в по-голямата си част са прости изречения. Изключение правят само някои модели на родово-видови КСО, които имат структура на сложно съставно изречение с подчинено определително (напр. У е {същ./NP}-Х, предлог? [който / чийто] / причастие).

Поради своята функция да изразяват КСО в специален текст, моделите със структура на прости изречения може да бъдат само от определен вид. Чрез тях се изразява наличието на дадено КСО, т.е. съобщава се научен факт. Изразяването на научни факти обаче е присъщо само на един от видовете прости изречения - съобщителните (вж. Граматика ІІІ 1983: 47). Ето защо моделите със структура на прости изречения може да се отнесат към съобщителните изречения.

Тези синтактични особености на моделите са важни, от една страна, с оглед на методите за тяхното конструиране. От друга страна, те налагат определени изисквания към разпознатите появи на КСО като напр. това да са (или да са част от) съобщителни изречения. Ако разпознатите изрази не ги удовлетворяват, много е голяма вероятността да са неправилно разпознати (повече по този въпрос вж. глава V, част 3.1.).

2. Морфологични особености на глаголните маркери

Отношение към операциите, чрез които извеждаме някои от моделите, имат и морфологичните особености на маркерите. И по-точно - на най-важния и задължителен почти за всички модели маркер - глаголния.

Глаголната форма-маркер в моделите е фиксирана по лице и време. Тя е в 3 л. сег. време. Тези й особености са обусловени от функцията й да бъде основният изразител на КСО. Третоличната форма на глаголния маркер е единствено възможна поради това, че той изразява отношения между термини, респ. - обекти, т.е. между нелица. Третоличният изказ по принцип е и най-характерният за научните текстове.

Що се отнася до сегашната форма на глаголния маркер, тя се определя от това, че, разглеждани като изречения, моделите съобщават научни факти. А както е известно, изразяването на общовалидни научни истини и научни факти и въобще употреба в научния стил е присъща на сегашното време в един от неговите видове - сегашно обобщено време (вж. Граматика ІІ 1983: 293-294).

Глаголната форма-маркер варира по число - може да е в ед. или мн. ч. Това се обуславя от елемента Х или У, от който тя е синтактично зависима (вж. напр. модела "Х води / водят до У").

Разгледаните тук синтактични и морфологични особености на моделите имат значение най-вече с оглед на операциите, които прилагаме при тяхното конструиране. Тези операции са описани в следващата, четвърта глава на работата.

 

 

БЕЛЕЖКИ

1. По отношение на български езиков материал такъв метод, базиран на правила, е използван засега само в рамките на проекта Бултрибанк. Като отделен модул в него бе създадена методика за автоматично разпознаване на собствени имена (вж. Осенова, Колковска 2002). [обратно]

2. Един от създадените корпуси за българския език - корпусът към проекта Бултрибанк <http://bultreebank.org>, притежава тези две равнища на анотация - морфологично и синтактично. Той обаче не може да бъде използван за нашите цели, тъй като не включва специална лексика. [обратно]

3. Терминът маркер е използван и от други учени. Вж. напр. Фелиу, Кабре (2002), Херст (1992), Кондамин, Ребейрол (1998) и др. За означаване на лексикални единици със същата функция се използва и терминът ключови думи. [обратно]

4. Става дума за маркерите причастие и предлог, които са компоненти на няколко модела за родови-видови КСОкато напр. "У е Х, предлог? [който / чийто] / причастие". Тези маркери са зададени чрез граматична характеристика - чрез частта на речта, към която принадлежат представяните от тях думи. [обратно]

5. Този случай е различен от появите на КСО, при които между изразителите на това КСО в текста има външен елемент. [обратно]

6. Би могла да се използва напр. при валидирането на разпознатите появи на КСО (т.е. установяването на правилно разпознатите появи). Това би станало чрез автоматичното елиминиране на всички онези разпознати появи, при които думите или фразите, стоящи непосредствено преди или след изразителите на КСО, не са същ. имена и именни фрази (с някои допълнителни уговорки - напр. допускане и на наречие в тази позиция). По този начин напр. изречението В редица случаи корундът бива оцветен от някои метални оксиди. би отпаднало автоматично като грешно разпознато, тъй моделът "Х бива / биват У",с който е разпознато, изисква думите около глаголната форма бива да бъдат термини , т.е. имена или именни фрази (а не причастие, както е в случая). [обратно]

7. В случаите, при които елемент Х или У представя две или повече лексикални единици, те може да са съчинително свързани (напр. "Х1 и Х2 ) или предложно свързани (напр. "Х1 с Х2"). Тук обаче действителният състав на елементите Х и У не ни интересува. Този проблем ще бъде актуален при разработването на методиката за автоматично разпознаване на термини. Засега приемаме общите условни означения Х и У. [обратно]

8. Като разположена между маркери на променливата винаги съответстват лексикални единици, които се намират между изразителите на дадено КСО. Елементите с позиция преди първата дума, изразяваща КСО, не се представят от променлива и не се отразяват в модела. Вж. напр. изречението Най-малката съставна част на химичните елементи са атомите. Тук прил. име най-малката е в начална позиция, преди изразителя на партитивно КСО съставна част и не затруднява разпознаването на целия израз. [обратно]

9. Изключение прави само една променлива, чиито значения са по-широки. Става дума за променливата {лексема+}, която се среща само в два модела за родово-видови КСО. Тя представя поредица от два и повече външни елемента (думи или словосъчетания) в един израз за КСО, които са непредвидими като брой и морфологични или синтактични категории. Вж. напр. модела за родово-видово КСО "Х, предлог? [който / чийто] {лексема+} се нарича / се наричат У". С променливата {лексема+}в него представяме тези елементи в съответните изрази, които се намират между местоимението който или чийто и глаголната форма се нарича / се наричат. Вж. разпознатата поява на родово-видово КСО с този модел в изречението Органични съединения <ОРВ>, които съдържат в молекулата си карбоксилна група, се наричат </ОРВ> карбоксилни киселини. В това изречение на променливата {лексема+} съответства поредицата от лексикални единици между които и се наричат. [обратно]

10. Вж. по този въпрос Георгиева (1974). [обратно]

11. С ограничение да не са в първа позиция в модела. [обратно]

12. Пълният вид на модела е "У е / са {прил./АР/местоим./нареч.} {същ./NP}-Х, предлог? [който / чийто] / причастие". [обратно]

13. В този случай са възможни проблеми с разпознаването на втория термин, но това засяга автоматичното разпознаване на термините, участващи в едно КСО и е извън нашето внимание тук. [обратно]

14. Все пак моделът не дава такава точност на разпознаването, както изходният лексико-граматичен модел. Причината за това е, че в текста в първа позиция след запетаята може да се окаже и дума, която не е причастие и така може да се разпознае израз, който не изразява търсеното КСО. [обратно]

15. Само в някои отделни случаи се очаква това да доведе до понижаване на точността на моделите. [обратно]

 

 

© Сия Колковска
=============================
© Електронно издателство LiterNet, 10.10.2005
Сия Колковска. Модели на концептуално-семантичните отношения между термините в специален (химически) текст с оглед на автоматичното им разпознаване. Варна: LiterNet, 2005