Сия Колковска - Модели на концептуално-семантичните отношения между термините в специален (химически) текст с оглед на автоматичното им разпознаване

Четвърта глава

МЕТОДИКА ЗА АВТОМАТИЧНО РАЗПОЗНАВАНЕ НА КОНЦЕПТУАЛНО-СЕМАНТИЧНИ ОТНОШЕНИЯ МЕЖДУ ТЕРМИНИТЕ

Сия Колковска

web | Модели на концептуално-семантичните отношения...

Първи раздел. Етапи (модули) на методиката за автоматично разпознаване на КСО

Методиката за автоматично разпознаване на КСО включва следните етапи, всеки от който е отделен модул в нея:

Конструиране на моделите на КСО.
Прилагане на моделите в химическия корпус.
Валидиране на резултатите от прилагане на моделите.
Усъвършенстване на моделите на КСО.

Всеки един от тези модули ще бъда разгледан поотделно.

І. Конструиране на моделите на КСО

Това е най-важният модул в методиката за автоматично разпознаване на КСО.

В него влизат два подмодула - 1) конструиране на лексикалните и на лексикално-граматичните модели и 2) извеждане на производните лексикални модели от лексикално-граматичните модели. Вторият подмодул включва операции на заместване, които не се отличават със сложност. Те бяха разгледани в предишната глава. Тук нашето внимание ще бъде насочено към процедурите, от които се състои първият подмодул - конструирането на лексикалните и лексикално-граматичните модели на КСО.

1. Методи за конструиране на моделите на КСО

1.1. Съществуващи методи

При автоматичното разпознаване на езикови единици с лингвистични методи се работи с модели, създадени по два начина - автоматично и ръчно. Автоматично извлечени от текста са напр. моделите на Русело и др. (1996), предназначени за автоматично разпознаване на отношения.

Ръчно създадените модели от своя страна се извеждат по два начина - по емпиричен път, чрез наблюдения върху текстовете ¹ и по интуитивен път, без да се извършват такива наблюдения. Емпиричните модели отразяват наблюденията върху това кои конструкции най-често изразяват търсените езикови единици в един текст. Моделите, създадени без наблюдения върху текста, се означават с термините априорни модели и предварително конструирани модели. Предпоставка за създаването на такъв тип модели е предположението за съществуването на думи и изрази, които са типични изразители на определени отношения. Според Лайънз (1977: 293) напр. съществуват конструкции (formulaе), при наличието на които може да се заключи, че е налице хиперонимно отношение, без да се знае значението на отделните думи в тях.

Предварително конструираните модели отразяват представите за това кои думи и изрази са типични изразители на дадено КСО. Използването на такъв тип модели има основания особено по отношение на терминологията. За всяко концептуално-семантично отношение в специалния език може да се посочат типични лексеми или съчетания от лексеми, които го изразяват ². Езиковият израз на КСО в специален текст е предсказуем и предвидим в известна степен. Ето защо е възможно предварително да се създадат модели, представящи типичните и най-често срещани конструкции, които изразяват КСО.

Предварително конструирани модели използват Херст (1992), Дейвидсън и др. (1998), Кондамин, Ребейрол (1998), Фелиу (2002), Мейер и др. (1997) и др. при разпознаването на КСО.

1.2. Метод за конструиране на моделите на КСО в работата³

По-голямата част от моделите на КСО тук са предварително конструирани. За тази цел се използва собствен подход. Като се използва идеята за предварително конструиране на моделите, се разработва подход, чрез който тази идея да бъде реализирана. Той ще бъде разгледан по-долу.

Някои от моделите, конструирани чрез създадения подход, са аналогични на изрази, посочвани като диагностични за съответното КСО в други езици. Т. напр. моделът за разпознаване на партитивни КСО "Х е съставна част / са съставни части \ на У" е аналогичен на посочения от Уинстън, Сейгър, Крус и др. учени фрейм за партитивно отношение в английския език "Х е съставна част от У" ("Х is a constituent part of У") (вж. Сейгър 1990: 32, Уинстън и др. 1987; Крус 1986: 160). Наличието на такова сходство е нормално явление и потвърждава първоначалното очакване, че независимо от спецификата на всеки език би трябвало да съществуват общи модели на някои КСО в различните езици. За да отразим това сходство, посочваме при всеки конструиран тук модел, за който сме установили аналог в други езици, от кои учени е използван.

Изключение от следвания тук метод за предварително конструиране на моделите правят само няколко модела, създадени емпирично, в резултат от наблюдения върху текста. При преглеждане на резултатите от прилагането на предварително конструираните модели в корпуса се установяват някои типични случаи на неразпознати появи на КСО. Те се вземат предвид при конструирането на емпиричните модели. Емпирично създаден напр. е моделът "У се получава чрез / при {същ./NP} на Х", който има голяма честота в химически текстове.

По принцип съчетаването на двата метода - предварително конструиране и емпиричен път на извеждане на моделите е много честа практика, която се наблюдава напр. при Дейвидсън и др. (1998), Ландау и Морин (1999) и др. Това спомага за повишаване ефективността на прилаганите методи, както показва и нашият опит. Включването в модула от модели и на няколко емпирични модела разширява кръга на разпознатите изрази за КСО.

2. Критерии при конструирането и подбора на моделите

При конструирането на моделите се ръководим от една основна цел - да обхванем с тях максимален брой различни думи и изрази за КСО в текста. Колкото повече такива думи и изрази отразим в моделите, толкова повече ще са разпознатите появи на КСО, а от това зависи показателят пълнота на методиката за автоматично разпознаване.

В същото време при оценката на конструираните модели се ръководим от някои съображения, които водят до ограничаване на техния брой. Всеки един от тях се преценява според това дали отговаря на едно основно изискване към моделите за автоматично разпознаване - изискването за надеждност. Той се включва в модула от модели само ако се прецени, че удовлетворява това изискване, което е свързано с т.нар. еднозначност на моделите и означава, че с тях трябва да се разпознава само търсената езикова единица (вж. Херст 1992). Ако с един модел се откриват и други изрази, те ще бъдат отчетени като грешно разпознати. Ето защо надеждността на моделите е пряко свързана с точността на методиката за автоматично разпознаване.

Като се съобразяваме с това изискване, не включваме тук някои модели, за които преценяваме, че е възможно да разпознават и изрази, които не изразяват КСО. Т. напр. не включваме модела "Х влиза / влизат в У", изведен с една от стандартните ни процедури, с който се разпознават появи и на партитивно КСО ⁴. Преценява се обаче, че той е нееднозначен и с него може да се откриват и изрази, които са извън кръга на търсените (като напр. следния: Алканалите влизат в присъединителни реакции).

Пак в посока на ограничаване броя на конструираните модели действа и едно друго съображение, от което сме се ръководили. То е свързано с намерението броят им все пак да не е прекалено голям, тъй като това би утежнило методиката. А нашият стремеж е тя да бъде относително лесна за приложение. С оглед на това съзнателно не конструираме модели за някои отделни типове появи на разглежданите КСО, въпреки че те са предвидими ⁵.

Критериите, следвани при конструирането и подбора на моделите, имат противоположно действие, като едните водят до увеличаване на техния брой, а другите налагат ограничения върху количеството им. При съчетаването на тези критерии се опитваме да намерим оптималния баланс между тях, така че да се постигнат максимално добри показатели на методиката за автоматично разпознаване (вж. по-подробно раздел втори на тази глава).

Първият подмодул на методиката, както се каза, включва два етапа - конструиране на лексикалните модели и на лексикално-граматичните модели. Първо се създават лексикалните модели. Тяхното конструиране е много важен етап на разглеждания подмодул.

3. Конструиране на лексикални модели на КСО

3.1. Подход при конструирането на лексикални модели

Подходът за предварително конструиране на моделите е разработен тук. Той се изразява в следното: първоначално конструираме два или три лексикални модела за всяко КСО, като изхождаме от същността му. Така получаваме едно ядро от модели, от които чрез определени лингвистични процедури извеждаме останалите лексикални модели на КСО. Самите процедури са създадени, като се отчитат лексикалните и граматичните особености на българския език.

Моделите, които конструираме първи, като изхождаме от същността на отделните КСО, наричаме типови. От тях извеждаме два други вида модели, които назоваваме първични и вторични. Т.е. тук конструираме три вида модели: типови, първични и вторични. Различието между тях не е свързано с техния състав, а с процедурите, чрез които се конструират.

Тъй като тук работим с предварително конструирани модели, нашата задача се свежда до това да предвидим типичните езикови единици, които изразяват КСО в специален текст. Това се постига, като се основаваме на два фактора. От една страна, изхождаме от същността на отделните КСО и на тази база извеждаме типовите модели. От друга страна, изхождаме от някои лексикални и граматични особености на българския език, които правят възможни определени вариации в езиковата форма на типовите модели (или на изведени от тях други модели). Описвайки тези вариации, създаваме първичните и вторичните модели. Така чрез тях представяме типичните, най-честите и предвидимите вариации в езиковия изказ на КСО, които са обусловени в най-голяма степен от лексикалната система и граматичния строй на българския език ⁶.

Типовите модели, конструирани първи, представят тези езикови конструкции, които смятаме за основни изразители на отделните КСО поради това, че ги извеждаме, като изхождаме от същността на всяко едно от тях.

Първичните и вторичните модели представят вариациите, формалните разновидности на изходните изрази. Те се извеждат от типовите модели (или от други модели, получени от типовите) чрез преобразувания от лексикален или граматичен характер. Първичните модели представят езиковите конструкции, получени от изходните модели в резултат на преобразувания на лексикална основа. Вторичните модели представят езиковите конструкции, получени от изходните модели в резултат на преобразувания от морфологичен и/или синтактичен характер.

Стремежът при конструирането на първичните и вторичните модели е да обхванем чрез тях възможно най-много различни езикови изкази на отделните КСО в специален текст. Този стремеж е свързан с желанието да разпознаем максимален брой появи на КСО в специален текст. Както се каза, колкото повече различни по форма изрази обхванем в моделите, толкова повече появи на търсените отношения ще бъдат разпознати с тях. Ето защо обхващането на възможно най-голям брой разновидности в езиковия изказ на КСО е първостепенна задача при конструирането на първичните и вторичните модели.

Тук е необходимо уточнението, че на този етап от работата към моделите се подхожда като към синтактични конструкции (както се каза, прости изречения или части от сложни съставни изречения с подчинено определително изречение), които подлежат на различни преобразувания с оглед извеждането на производните от тях изрази. Т. напр. моделът "Х съдържа / съдържат У", разглеждан като изходен модел за извеждане на други модели, се схваща като синтактична конструкция.

Създаването на първичните и вторичните модели става чрез извеждането на конструкции, които са производни на определени изходни за нас изрази (изходни модели). Производни тук наричаме конструкциите, които се извеждат от изходните конструкции чрез съответни преобразувания. Начините за извеждане на производните конструкции, т.е. преобразуванията, чрез които става това, са лексикални или граматични (морфологични и синтактични) по характер. Те се обуславят от лексикалните възможности, от лексикалното богатство на българския език и от особеностите на граматичния му строй.

Голяма част от производните конструкции са вариантни на изходните, т.е. не се различават съществено по значение и синтактични характеристики от тях. Тези конструкции означаваме с термина вариантни конструкции и със синонимите му варианти и вариантни изрази⁷. Такива напр. са конструкциите, изведени от изходни модели чрез синонимни замествания, словоредни преобразувания и др. За останалите производни конструкции, които се различават от изходните в семантичен и/или синтактичен план, използваме термина модифицирани конструкции и неговия синоним модификации. Модифицирани напр. са конструкциите, изведени чрез промяна в залоговата форма на глаголния маркер в изходния модел.

Смисълът от създаването на първични и вторични модели, които са производни конструкции на определени изходни модели и следователно представляват изрази, различни по форма от тях, е в това, така да бъдат обхванати максимален брой формални вариации на изходните модели. Смята се, че чрез този подход се гарантира разпознаването на голяма част от различните изкази, които едно КСО може да има в специален текст. Същевременно не забравяме, че всяка една нова производна конструкция трябва да запази основното си качество - да изразява съответното КСО.

По-долу разглеждаме процедурите, чрез които са конструирани първичните и вторичните модели на КСО. Както се каза, при създаването на типовите модели изхождаме от същността на всяко едно от тях. Ето защо конкретният начин на тяхното извеждане е уникален за всяко КСО и се разглежда при представянето на моделите на отделните отношения.

3.2. Конструиране на първичните модели на КСО

Първичните модели представят производните конструкции, получени от типови модели (или от други първични модели, изведени от типови) в резултат на преобразувания на лексикална основа.

Лексикалните преобразувания, чрез които се извеждат първичните модели, са основани на богатството от лексикални (синонимни и др.) средства, с които разполага българският език. Тези преобразувания се изразяват в заместването на маркер в изходния модел с друга дума, с която се намира в определени системни отношения - синонимия, конверсия, родови-видови отношения или с която е заменим в определен контекст. Извършват се четири типа лексикални замествания на маркер в изходния модел:

а) със синоним или синонимен израз;

б) с дума, с които са взаимозаменими в определен контекст;

в) с конверсив;

г) с видова дума.

За да означим тези типове лексикално заместване, използваме термините синонимно заместване, контекстно заместване, конверсивно заместване и родово-видово заместване. С термина контекстно заместване означаваме заместването на маркер с дума, с която са взаимозаменими в определен контекст. Родово-видово заместване наричаме заместването на маркер - родова дума с негова видова дума. В съответствие с разграничените типове лексикални замествания използваме четири вида процедури за лексикални преобразувания на моделите.

Изборът на видовете лексикални замествания, чрез които се извеждат първичните модели, се определя от предназначението на моделите. Чрез тях, както се каза, трябва да се обхванат изразите - вариации на изходните модели в лексикален план, които същевременно са запазили основното си качество - да изразяват съответното КСО. Чрез извършваните замествания се получават нови конструкции и в същото време не се засяга изискваното качество на моделите.

Първичните модели са вариантни или модифицирани изрази на изходните модели. Тези от тях, които са получени чрез синонимно и контекстно заместване, са вариантни изрази на изходните конструкции, тъй като са много близки до тях по семантика, а също и в синтактичен план. Моделите, получени чрез конверсивно и родово-видово заместване, се различават съответно по синтактични характеристики или семантика от изходните. Поради това те са модификации на изходните конструкции. Трябва да се подчертае обаче, че липсата или отсъствието на семантично или синтактично различие между изходните и производните конструкции не е от особено значение в случая. Важното е при конструирането на нов модел да се запази основното му качество - да изразява КСО.

Ще разгледаме четирите типа лексикални замествания (респ. процедури), чрез които са конструирани първичните модели.

3.2.1. Синонимно заместване

Синонимното заместване представлява заместване на маркер в изходния модел с негов синоним или синонимен израз.

Чрез синонимно заместване от типовия модел на партитивните КСО "Х съдържа / съдържат У" се извеждат първичните модели "Х се състои / се състоят \ от У", "Х обхваща / обхващат У" и "Х включва / включват У", като се изхожда от синонимните отношения на глагола съдържам (в знач. 'имам част от себе си, включвам в състава си' - 2 знач. ТР) с глаголите състоя се, обхващам (в знач. 'затварям в границите, в пределите си; включвам - 2 знач. РБЕ) и включвам (в знач. 'имам в границите, обема, размера си - 3 знач. РБЕ).

От другия типов модел на партитивните КСО "У е част / са части \ на Х", поради синонимията между същ. имена част (в значение 'обект, който влиза в състава на друг'), компонент и елемент, се извеждат моделите "У е компонент / са компоненти \ на Х" и "У е елемент / са елементи \ на Х". От същия типов модел "У е част / са части \ на Х"се извежда и първичният модел "У е съставна част / са съставни части \ на Х" поради еднаквата денотативна отнесеност на същ. име част (в посоченото по-горе значение) и устойчивото съчетание съставна част.

Синонимно заместване се извършва и в модела на родово-видовите КСО "Към {същ. /NP}-Х се отнася / се отнасят \ видовете У₁...У_n".Чрез тази процедура от него се извеждат моделите "Към {същ. /NP}-Х спада / спадат видовете У₁...У_n" и "Към {същ. /NP}-Х се причислява / се причисляват \ видовете У₁...У_n". Изхожда се от синонимията между глагола отнасям се (' принадлежа към нещо') и глаголите спадам ('Влизам в състава, категорията на нещо; числя се, принадлежа, отнасям се' - ТР) и причислявам се ('Влизам в състава, категорията, групата на нещо').

Чрез синонимно заместване на маркер с негов синонимен израз от типовия модел на партитивните КСО "У е част / са части \ на Х" се извеждат и моделите "У влиза / влизат в състава на Х" и "У участва / участват в състава на Х". Основание за това е съвпадението в значенията на изразите част съм (от нещо), влизам в състава (на нещо) и участвам в състава (на нещо).

Някои първични модели са резултат от синонимно заместване на предлог в изходния модел с друг предлог, изразяващ същия вид отношение. В случая, разбира се, терминът синонимно заместване се употребява условно, тъй като синонимията не е явление, присъщо за предлозите. Тук заместването е поради сходство на изразяваното от два предлога отношение. Т. напр. това, че предлозите от и на може да означават сходно отношение (от - За означаване на част от нещо или от някаква група, общност - 5 знач. РБЕ; на - За означаване на част, подразделение от нещо - І, 1 знач. РБЕ), е основание от типовия модел "У е част / са части \ на Х" да изведем модела "У е част / са части \ от Х".

3.2.2. Контекстно заместване

Контекстното заместване представлява заместване на маркер в изходния модел с друга дума, основано на тяхната взамозаменяемост само в определен контекст.

По принцип взаимозаменяемостта е присъща на синонимите. Както е известно обаче, взаимозаменями в определен контекст може да са и думи, които не са синоними. Те може да се заместват една с друга в този контекст, без това да доведе до промяна на смисъла на целия израз. Тази особеност на контекстнозаменяемите думи е важна за нас. Тук използваме контекстната заменяемост на определени маркери с други думи, за да изведем по-разнообразни по състав модели от един изходен модел, което позволява обхващането и разпознаването на по-широк кръг конструкции, изразяващи КСО.

Процедурата контекстно заместване се използва много често при извеждането на модели на родово-видовите КСО (обикн. в дефиниции). Като прилагаме тази процедура към някои изходни модели, съдържащи маркери в определен контекст, извършваме в тях преобразувания, невъзможни в други контексти и конструкции. Чрез тези преобразувания извеждаме нови модели. Изходен модел за такива контекстни замествания е типовият модел "У е / са {същ. /NP}-Х, предлог? [който / чийто] / причастие", чрез който се разпознават родово-видови отношения в дефиниции. Гл. съм в този модел (респ. - като компонент на дефиниция) е контекстно заменим с глаголите наричам и определям в страдателните им форми. Подчертаваме, че тази заменяемост е възможна само в определен контекст - при участието на посочените глаголи в дефиниции. Като изхождаме от тази контекстна заменяемост, от посочения типов модел извеждаме първичните модели "У се нарича / се наричат {същ. /NP}-Х, предлог? [който / чийто] / причастие" и "У се определя / се определят като {същ. /NP}-Х, предлог? [който / чийто] / причастие".Чрез конструирането на тези първични модели предвиждаме възможността съответните изрази за родово-видово КСО, които са части от дефиниции, да съществуват в различни варианти и така гарантираме тяхното разпознаване в текста.

Чрез контекстно заместване създаваме и моделите за партитивни КСО с маркер представлявам, заместващ маркер съм в изходните модели. Основание за това заместване е взаимозаменяемостта на двата глагола в определени контексти. Така от изходен модел "У е част / са части \ на Х" извеждаме модела "У представлява част / представляват части \ на Х".

3.2.3. Конверсивно заместване

Конверсивното заместване представлява заместването на маркер в изходния модел с негов конверсив.

При използването на конверсивно заместване като процедура за извеждане на нови модели изхождаме от следното основание. Както е известно, конверсивите имат една и съща денотативна отнесеност. Те означават едно и също действие, представено обаче от гледна точка на двата противоположни участника в ситуацията - обекта и субекта. Ето защо може да се причислят към синонимните средства на езика (вж. Лингвистический энциклопедический словарь). Съществуващата разлика между конверсивите по отношение на актуалното членение на изречението не е от значение с оглед на целите, за които ги използваме тук.

Конверсивно заместване прилагаме в модела "Х включва / включват У", от който извеждаме модела "У изгражда / изграждат Х" поради конверсията между гл. включвам (в знач. 'имам в границите, обема, размера си - 3 знач. РБЕ ) и изграждам (в знач. 'участвам в появата, създаването на нещо обикн. чрез включване в него като съставна част' - 2 знач. РБЕ).

В някои конверсивни замествания използваме отношенията между определени деятелни глаголи и съответните им средни непреходни глаголи, които също може да се причислят към конверсивните отношения. Такива са отношенията между гл. съдържам (в знач. 'имам като част от себе си, включвам в състава си' - 2 знач. ТР) и съдържам се (в знач. 'част съм от състава на нещо'); също и между гл. включвам (в посоченото значение) и включвам се (в знач. 'присъединявам се към нещо, ставам част от нещо'). На тази основа от изходните модели "Х съдържа / съдържат У"и "Х включва / включват У" извеждаме моделите "У се съдържа / се съдържат \ в Х" и "У се включва / се включват \ в Х".

За разлика от моделите, получени чрез синонимно и контекстно заместване, моделите, резултат от конверсивно заместване, се отличават в синтактичен план от изходните модели. При заместването на един конверсив с друг се променя синтактичната функция на елементите Х и У в изходния модел (съответно от подложна в обектна за единия елемент и от обектна в подложна - за другия), което се съпровожда с промяна в словоредните им позиции. Ето защо производните конструкции, получени чрез конверсивно заместване, представляват модифицирани конструкции. От този вид са и конструкциите, получени чрез четвъртия тип лексикално заместване - родово-видовото.

3.2.4. Родово-видово заместване

Родово-видовото заместване представлява заместване на маркер в изходния модел с негова видова дума, т.е. с дума, която означава видово понятие по отношение на понятието, изразено от него.

Чрез родово-видово заместване от типовия модел на партитивно КСО "У е част / са части \ на Х" се извеждат моделите "У е фаза / са фази \ на Х", "У е етап / са етапи \ на Х" и "У е стадий / са стадии \ на Х"въз основа на това, че същ. имена етап, фаза и стадий означават видови понятия по отношение на понятието "част". Те са видови названия на същ. име част в общоупотребимия език, тъй като се отнасят за денотати, които са част и цяло от определен вид цяло - процес или действие. С тези първични модели се разпознават партитивни КСО, проявяващи се само между термини за процеси или действия. Ако с модела "У е част / са части \ на Х" може да се разпознаят партитивни отношения между каквито и да било същности, с модела "У е фаза / са фази \ на Х" може да се разпознаят КСО само между процеси и действия.

Някои родово-видови замествания са основани на родово-видови отношения, специфични за химическата област като напр. заместването на родовия термин вещество с видовия му термин (химично) съединение, извършено в модела "Х е изходно вещество / са изходни вещества \ за получаване на У". В резултат на тази процедура се извежда моделът "Х е изходно съединение / са изходни съединения \ за получаване на У".

Специфично за химическата подсистема е и родово-видовото отношение между същ. име част и термините градивни частици и градивни елементи.В химическата област части на химичните вещества представляват техните градивни частици и градивни елементи. Ето защо термините градивни частици и градивни елементи може да приемем за видови названия на същ. име част в химическата област. Това е основание да извършим съответното родово-видово заместване в типовия модел "У е част / са части \ на Х", чрез което извеждаме моделите "У е градивен елемент / са градивни елементи \ на Х" и "У е градивна частица / са градивни частици \ на Х". Тези модели са специфични за химическата област.

Получените чрез родово-видово заместване модели изразяват КСО, което се проявява между по-тесен кръг термини в сравнение с отношението, представено в изходния модел. Очевидно те изразяват КСО с по-тесен обхват, което е основание да ги смятаме за модифицирани конструкции.

3.3. Конструиране на вторичните модели на КСО

Вторичните модели представят производните конструкции, получени от изходни модели в резултат на преобразувания от морфологичен и/или синтактичен характер. Те се извеждат, като се отчитат възможностите за вариации и трансформации в изказа на отделните КСО, заложени в граматичната система на българския език. Отчитането на тези възможности и фиксирането им в модели е избраният тук подход за предвиждане поне на част от разнообразните езикови изкази на едно КСО в текста.

Вторичните модели се извеждат от изходни модели чрез преобразувания в тях, които се допустими с оглед на синтактичните и морфологичните особености на българския език. Същевременно не всички от допустимите в българския език граматични преобразувания са подходящи за прилагане при извеждането на вторичните модели. За тази цел може да се използват само тези, които не водят до нарушаване спецификата на моделите като представящи КСО. Подходящи граматични преобразувания са напр. промяната на залоговата форма на глаголните маркери в изходните изрази, словоредните размествания в тях, перифразите със съкращаване на компоненти и др. Допускани от езика, но невъзможни за прилагане тук граматични преобразувания са тези, които биха довели до промяна на глаголните маркери по лице или време. Те, както се каза, са фиксирани по лице и време и трябва да бъдат третолични форми в сегашно време.

При конструирането на вторичните модели се извършват два вида граматични преобразувания или се прилага комбинация от тях.

Първият вид са преобразуванията от морфологичен характер, които се извършват чрез заместване на една граматична форма в изходните модели с друга (без това да засяга синтактичната природа на израза). Преобразуванията от този вид, които използваме тук, се основават на граматичното вариране, позволяващо замяната на една граматична форма с друга без промяна на смисъла. Именно чрез заместването на вариантни словоформи се извършват морфологичните преобразувания на изходните конструкции. Получените в резултат конструкции са вариантни на изходните съгласно с приетата тук терминология.

Вторият вид са преобразуванията от синтактичен характер, повечето от които възпроизвеждат стандартните синтактични начини за преобразуване на конструкции. Такива са напр. словоредните размествания, трансформациите на изречения в безглаголни конструкции (чрез съкращаване на VP фразата) и др.

Чрез някои от синтактичните преобразувания (напр. словоредното разместване) се получават вариантни конструкции, които не се различават синтактично (и семантично) от изходните. При прилагането на повечето синтактични преобразувания обаче се получават конструкции, различни в синтактичен (и семантичен) план от изходните. Те представляват модифицирани конструкции.

При конструирането на някои вторични модели се извършват морфосинтактични преобразувания, съчетаващи основните два вида. От този вид е преобразуването на конструкции чрез промяна на залоговата форма на глаголните маркери.

Използваните тук граматични преобразувания може да се представят от още една гледна точка - според това коя страна на изходния модел засягат - неговия състав, словоред или и двете. Морфологичните преобразувания напр. водят до изменения в състава на изходния модел, а някои от синтактичните преобразувания - до изменения в словореда.

И накрая трябва да уточним, че изходен модел за извеждането на вторичните модели може да бъде всеки един от трите типа модели, използвани тук. Вторичните модели се получават не само от типови и първични, но и от други вторични модели. Т. напр. вторичният модел "У се съдържа / се съдържат \ в Х" се получава от първичния модел "Х съдържа / съдържат У". Същият вторичен модел е изходен за извеждане на друг вторичен модел - "У се съдържа / се съдържат \ {нареч.} в Х".

Ще разгледаме трите вида синтактични преобразувания (респ. процедури), чрез които са конструирани вторичните модели.

І. Морфологично преобразувание в изходния модел

Това преобразувание се извършва чрез заместване на глаголен маркер, който е в определена форма в изходния модел, с друга негова глаголна форма - граматичен вариант на първата. То, както се каза, е основано на граматичното (морфологичното) вариране.

Чрез създаването на модели чрез това преобразувание се предвижда възможността едно и също КСО да бъде изразено в текста от конструкции с глаголни форми - граматични варианти.

Конкретният вид морфологично преобразувание, което прилагаме тук, се основава на съществуването на две страдателни форми - възвратнострадателна и причастнострадателна. Извършваме го в модели, които съдържат възвратнострадателна форма. Процедурата се състои в замяна на възвратнострадателната форма в изходния модел с вариантната й форма. Като прилагаме тази процедура в изходния модел "Х се изработва / се изработват \ от У", конструираме вторичния модел "Х е изработен (-а, -о) / са изработени \ от У".

ІІ. Синтактично преобразувание в изходния модел

При представяне на използваните синтактични процедури ги обединяваме в три групи според това коя страна на изходните модели засягат - словореда, състава или и двете.

1. Словоредна промяна в изходния модел

Словоредната промяна се извършва чрез словоредно разместване. Това синтактично преобразувание се изразява в промяна на позициите на маркерите и на елементите Х и У в изходния модел. Извършва се в тези модели, които включват повече от един маркер и допускат словоредна промяна. Преместването на съответния компонент (или компоненти) се извършва в съответствие със съществуващите в българския език основни словоредни модели и техните варианти ⁸.

Словоредно разместване прилагаме в изходния модел за партитивно КСО "У е част / са части \ на Х". Като предвиждаме възможността именната част на именното сказуемо да бъде не само в постпозиция, но и в препозиция по отношение на гл. съм, извеждаме вторичния модел "Част на Х е / Части на Х са \ У".

Чрез конструирането на модели чрез словоредно разместване се предвижда възможността едно и също КСО да бъде изразено в текста от изрази, които са словоредни варианти.

2. Промяна в състава на изходния модел

Тази промяна се осъществява чрез различни процедури - съкращаване или добавяне на компоненти, заместване на един компонент с друг.

2.1. Съкращаване на компонент

Съкратеният компонент може да е маркер или елемент Х или У.

2.1.1. Съкращаване на компонент - маркер

Това синтактично преобразувание се прилага в ограничен брой модели, в които е допустимо съкращаването на някой от маркерите (дума или словосъчетание). Това не води до особена промяна в семантичен план на изходната конструкция.

Съкращаване на маркер се прилага в модела за родово-видово КСО "Х бива / биват следните видове: У₁...У_n". Чрез отстраняване на маркера следните видове се извежда вторичният модел "Х бива / биват: У₁...У_n".

Чрез създаването на модели чрез това преобразувание се предвижда възможността някои изрази за КСО да съществуват и в съкратен вид, без някои от своите компоненти.

2.1.2. Съкращаване на компонент - елемент Х или У

Това синтактично преобразувание се прилага в определени модели, които съдържат глаголни маркери с разделнооформена структура - средни глаголи и страдателни глаголни форми (възвратнострадателни и причастнострадателни). Изразява се в съкращаване на елемент Х или У, който изпълнява подложна функция. Това се съпровожда с изменение в двукомпонентния маркер, чийто компонент "се" или "е / са" променя позицията си. Той се премества в позиция след първия компонент на глаголния маркер ⁹.

Чрез такова преобразувание от изходния модел за партитивно КСО "У се съдържа / се съдържат \ в Х" се извежда вторичният модел "Съдържа се / съдържат се \ в Х". Същата процедура прилагаме и в модела за функционално КСО "Х е използван / са използвани \ за У, от който извеждаме вторичния модел "Използван е / Използвани са \ за У".

Чрез създаването на модели чрез тази процедура се предвижда една възможна вариация на изразите за КСО в текста, обусловена от синтактичните и морфологични особености на българския език. Имаме предвид, първо, възможността подлогът да не бъде изразен на повърхностно равнище и второ - промяната, която се извършва в резултат на това в двукомпонентните глаголи и глаголни форми, каквито са средните глаголи, възвратнострадателните и страдателнопричастните глаголни форми. Съдържащите се в тях компоненти "се" (съответно частица и формообразуващ елемент) и "е / са" променят своята позиция при съкращаване на подлога (срв. изреченията Той се удари. и Удари се; също и изреченията Той е ударен и Ударен е.).

Ако не предвидим възможността от такава промяна в изразите за КСО, не бихме разпознали случаите, при които тя е извършена. Т. напр. с модела "Съдържа се / Съдържат се \ в Х" се разпознава появата на партитивно КСО в изречението <ОЧЦ> Съдържа се в </ОЧЦ> лимоновия сок, в което подлогът лимонена киселина няма синтактична реализация. Ако този модел липсваше, изразите за КСО от този тип, които съвсем не са редки, биха останали неразпознати.

И така, чрез създаването на модели чрез разглежданото преобразувание се гарантира разпознаването на изрази за КСО, включващи средни глаголи и страдателни глаголни форми с изнесен отпред компонент "се" или "е / са".

2.2. Добавяне на компоненти

Добавените компоненти са маркери.

Тази процедура се прилага в ограничен брой модели и се състои в добавянето на определени маркери - един (в различните му форми) + предлог от. Тя се прилага в определени модели - обикн. с маркери гл. съм + същ. име, пред които е възможно да се поставят тези допълнителни маркери.

Чрез тази процедура от модела на партитивни КСО "У е дял / са дялове \ на Х" се конструира вторичният модел "У е един / са едни \ от дяловете на Х".

Производните конструкции, получени чрез тази процедура, не се различават особено в семантичен план от изходните. Те представят една възможна перифраза на изходните конструкции с по-силно акцентиране върху определени елементи.

Чрез създаването на модели чрез това преобразувание се предвижда възможността изразите на някои КСО да съдържат и допълнителен компонент един от.

2.3. Заместване на един компонент с друг

Заместеният компонент е маркер.

Това синтактично преобразуване се прилага в ограничен кръг модели, които позволяват заместване на глаголния маркер с негова нелична форма - причастната. То се извършва чрез заместване на глаголния маркер в такива модели с два вида причастия - сегашно деятелно причастие и минало страдателно причастие, които се преценяват като възможни в най-голяма степен в посочената позиция.

Преобразуванието води до съществена синтактична промяна на изходния модел, представляващ от синтактична гледна точка изречение, от което се получава безглаголна модификация - именна фраза. Това се маркира и от промяна в пунктуацията - въвеждане на запетая в производната конструкция, отделяща именната опора от подчиненото й причастие.

Такъв вид преобразувание прилагаме в модела за партитивно КСО "Х съдържа / съдържат У". Чрез заместване на глаголния маркер съдържа с формата му за сегашно деятелно причастие и съответните съпровождащи промени извеждаме вторичния модел "Х, съдържащ / съдържащи У".

Заместването на глаголен компонент с причастие се съпровожда и от словоредна промяна в случаите, когато заместващият компонент е минало страдателно причастие. Словоредната промяна засяга елементите Х и У. Т. напр., при прилагане на тази процедура в модела за партитивно КСО "У изгражда / изграждат Х", извеждаме вторичния модел "Х, изграден (-а, -о) / изградени от У", в който елементите Х и У са с променени словоредни позиции в сравнение с изходния модел.

Чрез конструирането на модели чрез това преобразувание се предвижда възможността изразителите на КСО в текста да бъдат не само глаголни фрази, но и техни безглаголни модификации.

ІІІ. Морфосинтактично преобразувание в изходния модел

Това преобразувание се извършва чрез промяната на залога на глаголния маркер в изходния модел от деятелен в страдателен, като изходната деятелна глаголна форма се замества със страдателна (възвратнострадателна или причастнострадателна). Чрез това морфологично по същността си преобразувание се получава производна конструкция, различна в синтактичен план от изходната. Промяната на залога на глаголния маркер се съчетава с допълнителни промени и преобразувания, съпровождащи по принцип залоговото преобразувание, а именно: промяна в синтактичните функции на логическия субект и логическия обект на синтактичната конструкция, в случая - на елементите Х и У (съответно от подложна в косвенообектна за единия елемент и от прякообектна в подложна - за другия); словоредна промяна в позициите на двата елемента в изходната конструкция.

Такова преобразувание извършваме в модела за каузативни КСО "Х причинява / причиняват У". Като заместваме глаголния маркер в деятелен залог причинява със страдателните глаголни маркери се причинява и е причинен, конструираме два вторични модела: "Х се причинява / се причиняват \ от У" и "Х е причинен / са причинени \ от У".

Чрез създаването на модели чрез това преобразувание се предвижда възможността едно и също КСО да бъде изразено в текста както от деятелни, така и от пасивни конструкции. По този начин се осигурява разпознаването на изразяващите КСО конструкции и от двата типа.

И накрая трябва да се уточни, че разгледаните процедури за извеждане на първични и вторични модели се прилагат и към няколкото емпирично изведени модели в работата. Морфологично преобразувание напр. извършваме в емпирично изведения модел "У се получава чрез / при {същ./NP} на Х". Така извеждаме модела "У е получен чрез / при {същ./NP} на Х".От същия изходен модел чрез съкращаване на елемент У (и промяна на мястото на елемент се) получаваме друг производен модел: "Получава се чрез / при {същ./NP} на Х".

След като описахме подхода, използван за конструиране на лексикалните модели, ще разгледаме начина на извеждане на другия тип модели - лексикално-граматичните.

4. Конструиране на лексикално-граматични модели на КСО

Конструирането на лексикално-граматични модели се извършва чрез включване на променлива в състава на някои изходни лексикални модели. Прилаганият подход при включването на променлива в моделите вече бе разгледан.

Критериите, с които определяме това в кои лексикални модели и в какви позиции да добавим променлива, са свързани най-общо със словоредните норми в българския език и с особеностите на семантичната и лексикалната съчетаемост. Тези критерии са описани по-напред в работата.

Тук ще допълним казаното, като разгледаме включването на променлива, респ. - конструирането на лексикално-граматични модели и в друг план - с оглед на използваните за тази цел процедури. Тъй като според начина на извеждането им тези модели се отнасят към вторичните модели, се налага да разгледаме и този въпрос.

Конструирането на лексикално-граматични модели се извършва чрез две процедури - добавяне на променлива и заместване на елемент Х с променлива.

4.1. Добавяне на променлива

Добавянето на променлива е една от често използваните процедури за конструиране на вторични модели. Тя се прилага към изходни модели и от трите типа: типови, първични и вторични.

Чрез конструирането на модели чрез тази процедура се предвижда възможността между изразителите на КСО в текста да се появи външен елемент. По този начин се обхващат голям брой изрази за КСО поради твърде честите случаи на поява на такъв елемент в тях.

Добавяне на променлива {нареч.} прилагаме в модела на КСО източник-продукт"Х се получава / се получават от У". Чрез тази процедура конструираме вторичния модел "Х се получава / се получават \ {нареч.} от У".

Процедурата добавяне на променлива се различава по характер от другите преобразувания, използвани за извеждане на вторични модели. За разлика от тях тя не отразява допустимите от езика синтактични преобразувания, чрез които една конструкция може да се изведе от друга. Добавянето на променлива отразява друг тип вариране (условно казано), свързано с възможността за различна комбинаторика между различните части на изречението. По-конкретно - с възможността при това "вариране" да се появят външни елементи (с определени морфологични или синтактични характеристики) между изразителите на дадено КСО.

4.2. Заместване на компонент, съдържащ елемент Х

Извеждането на вторични модели чрез това преобразувание се извършва в редки случаи. То се прилага в няколко модела, в които елементът Х е част от предложна фраза. Вж. напр. модела за партитивни КСО "В състава на Х влиза / влизат У". Преобразуванието се извършва чрез заместване на предложната фраза на Х с променлива местоимение. Тя представя точно определено местоимение - притежателното (в пълната или кратката му форма). Позицията, която тази променлива заема във вторичния модел, се определя от словоредните възможности на двете местоименни форми в българския език.

Такова заместване се прилага в модела "В състава на Х влиза / влизат У",при което се извеждат вторичните модели "В {местоим.} състав влиза / влизат У" и "В състава {местоим.} влиза / влизат У". В първия модел променливата {местоим.} представя пълна форма на притежателното местомение, а във втория модел - кратката му форма (клитика).

Чрез извеждането на модели чрез това преобразувание се предвижда една възможна, макар и не много честа вариация в изразите за КСО. Тя е свързана с изразяването на външен елемент Х, който е споменат по-напред в текста, с местоимение. Така се гарантира разпознаването и на такива изрази за КСО.

5. Група от модели

Създадените тук типови, първични и вторични модели на отделните КСО се групират по определен начин. Всеки типов модел и всеки първичен модел заедно с вторичните им модели образуват отделни групи ¹⁰. Вторичните модели, изведени от един типов или първичен модел, често са основа за извеждане на нови вторични модели, така че съставът на някои групи е доста многочислен.

Като пример ще разгледаме една група модели с голяма честота в химическите текстове: групата модели на типовия модел за функционални КСО "Х се използва / се използват \ за У".

Група на типовия модел "Х се използва / се използват \ за У"

Вторични модели:

1. Х се използва / се използват \ {нареч.} за У.
2. Х се използва / се използват \ {РР} за У.
3. Х се използва / се използват \ {съюз} за У.
4. Използва се / Използват се \ за У.
4.1. Използва се / Използват се \ {нареч.} за У.
4.2. Използва се / Използват се \ {РР} за У.
4.3. Използва се / Използват се \ {съюз} за У.
5. Х е използван (-а, -о) / са използвани \ за У.
5.1. Х е използван (-а,-о) / са използвани \ {нареч.} за У.
5.2. Използван (-а,-о) е / Използвани са \ за У.

В разглежданата група модел 5 е изведен от типовия модел чрез морфологично преобразувание (заместване на една страдателна форма с друга). Модел 4 е изведен чрез съкращаване на елемент Х (и промяна в позицията на елемента "се"). Моделите 1, 2 и 3 са конструирани чрез добавяне на променлива от различен вид. Чрез същата процедура от вторичен модел 4 извеждаме нови вторични модели. Чрез добавяне на променлива в модел 5 конструираме и вторичен модел 5.1. Модел 5 е изходен и за извеждането на вторичния модел 5.2. чрез съкращаване на елемент Х (и промяна на мястото на елемент "е / са").

Чрез конструирането на всички тези вторични модели се предполага, че е обхваната голяма част от появите на функционалното КСО, в които участва глаголът използвам (в съответните му форми).

Необходимо е едно уточнение по отношение на емпирично изведените модели. Мястото им в съответните групи модели се определя от степента на тяхното сходство с другите модели в групата. Някои от емпирично изведените модели се третират като първични модели, като поставят началото на отделна група (напр. моделът "У се получава чрез / при {същ./NP} на Х"), а други се включват в други групи подобно на вторичните модели.

И така, разгледахме първия модул в методиката за автоматично разпознаване на термини - конструирането на моделите на КСО. В този модул се конструират 88 групи модели на петте разпознавани тук КСО, които ще представим в следващата глава на работата. Тук продължаваме с втория модул на методиката - прилагането на моделите на КСО.

ІІ. Прилагане на конструираните модели в химическия корпус

Този модул се състои от пет подмодула, всеки от тях предназначен за разпознаване на определено КСО. В отделните подмодули се прилагат групите модели на съответното КСО. При това тези подмодули следват в определена последователност, като пръв е подмодулът на партитивните отношения, следван от подмодула на родово-видовите КСО и т.н. В определена последователност (често различна от реда, в който сме ги изложили тук) се прилагат и моделите в рамките на отделните подмодули.

Моделите на КСО се прилагат, като се използва софтуерната програма CLaRK. В тази програма моделите се прилагат като система от регулярни изрази (или регулярни граматики - regular grammars).

Регулярните изрази се използват при програмиране (напр. като част от езика за програмиране Рerl). Езикът на регулярните изрази се състои от определени ограничен брой елементи като напр. буквите от азбуката на даден език и определени символи (?, +, * и др.). Тези изрази се характеризират с определен синтаксис и семантика. Използват се като модели (правила), които се налагат в текста в търсене на съответстващите им стрингове. Те са много подходящи за използване при автоматичното разпознаване на лексикални единици.

Регулярните изрази се прилагат към маркирани в XML ¹¹ документи. Всяка разпозната поява на КСО получава съответното кодиране ¹².

При преобразуването им в регулярни изрази броят на конструираните модели силно се редуцира. Синтаксисът на регулярните изрази позволява с един от тях да се обхванат по няколко (понякога по 10 и повече) от конструираните модели. Това прави модулът от модели много по-лесен за приложение.

Както се каза, в работата представяме моделите на КСО в по-достъпния им и лесно разбираем вид поради стремежа към по-голяма достъпност на изложението. За да се даде все пак представа за реалния вид, в който се прилагат моделите, ще посочим като пример някои от използваните регулярни изрази.

Моделите за партитивно КСО "Х съдържа / съдържат У", "Х включва / включват У", "Х обхваща / обхващат У" и "Уизгражда / изграждат Х"се преобразуват и прилагат в един регулярен израз:

Символът | означава дизюнкция, а символът "unknown" - това, че категорията на посочените в първата част на израза думи не е известна за програмата. Те са глаголи, но тъй като в химическия корпус липсва морфологично анотиране, категорията им в него е неизвестна.

По-сложните по състав (трикомпонентни) модели на каузативното КСО"У е / са резултат от Х", "У е / са следствие от Х" и "Х е / са причина за У"се преобразуват и обединяват в един регулярен израз:

<("е" | "са"), "unknown">, <("резултат" | "следствие" | "причина), "unknown">, <("от" | "за"), "unknown">.

Този регулярен израз се разширява, за да се включат в него и вторичните модели с променливи, изведени от посочените по-горе три модела (като напр. "У е / са резултат {нареч.} от Х" и "У е / са резултат {РР} от Х"). Като се обхванат и тези вторични модели, регулярният израз добива окончателен вид:

2. <("е" | "са"), "unknown">, <("резултат" | "следствие" | "причина), "unknown">, <$CYRws, "unknown"> * <("от" | "за"), "unknown">.

С този регулярен израз се представя последователност от три или четири думи. Със символа "$CYRws" се представя дума, която съдържа букви от кирилицата и започва с малка буква.

Символът * има максимално широко значение - той означава, че елементът, след който е поставен, се среща нула или повече пъти в изречението. В случая с него се означава, че между определени изразители на каузативното КСО е възможно да няма нито един външен елемент или да има такъв елемент, състоящ се от една или повече думи. Този символ дава възможност да се обединят в един регулярен израз моделите без променлива и изведените от тях модели с променлива.

При съвпадение между прилаган регулярен израз и определени елементи на текста те се маркират от програмата по определен начин. Маркирането на разпознатите появи на КСО, както многократно се отбеляза, става с двойка от тагове (отварящ и затварящ таг), различни за отделните КСО.

Така например, при прилагане на регулярен израз 1) се разпознават появи на партитивно КСО (маркирани с тагове <ОЧЦ> и </ОЧЦ>) в изречения 1-3:

1. <ОЧЦ> Съдържа (земният газ) </ОЧЦ> метан, етан, пропан, бутан.

2. Вторичните подгрупи (в периодичната система) <ОЧЦ> включват </ОЧЦ> d-елементите.

3. Заедно със силиция той (алуминият) <ОЧЦ> изгражда </ОЧЦ> литосферата.

С регулярен израз 2) се разпознават появи на каузативно КСО (маркирани с тагове <КО> и </КО>) в изречения 4-5:

4. Зарядът на йоните <КО> е причина за </КО> електропроводимостта на разтворите и стопилките на електролитите.

5. Естествените замърсители <KO> са резултат предимно от </KO> гнилостни процеси, от изригване на вулкани и др.

След прилагането на втория модул на методиката и разпознаването на появите на КСО в отделните подмодули се пристъпва към третия модул на методиката, представен по-долу.

ІІІ. Валидиране на резултатите от прилагане на моделите

Валидирането на резултатите от прилагането на моделите става чрез ръчно преглеждане на разпознатите появи на КСО. Основната задача на този модул на методиката е да се установи правилността на разпознатите появи. Неправилно разпознатите появи (т.нар. шум) се елиминират като грешки. Така след валидиране на резултатите от прилагането на моделите маркирани остават само вярно разпознатите появи на КСО.

В този модул се извършва подготовка за разпознаване на термините, участващи в дадено КСО. Както се каза, на тази задача ще бъде посветена следващата част на работата.

Третата задача, която поставяме тук пред валидирането, е откриването на пропуските при автоматичното разпознаване, т.е. на тези появи на КСО в текста, които не са разпознати с приложените модели.

Във връзка с начина, по който се процедира в този модул - чрез ръчно преглеждане на резултатите от прилагане на моделите, трябва да се подчертае, че макар разпознаването на КСО като цяло да е автоматичен процес, е необходима и частичната намеса на човека. Както посочва Дейвидсън и др. (1998), тази намеса е неизбежна, особено при установяването на неточностите и пропуските на автоматичното разпознаване.

Валидирането включва следните етапи (подмодули):

1. Установяване на грешките при автоматичното разпознаване на КСО

Установяването на грешките се основава на личната преценка на проверяващия дали една разпозната поява действително изразява търсеното КСО. Всеки случай на грешка се елиминира.

Голяма част от грешките, забелязани при преглеждането на разпознатите появи на КСО, са типични. Те ще бъдат разгледани по-нататък в работата (вж. раздел трети на тази глава)

2. Извършване на подготовка за автоматичното разпознаване на термини

Без да обсъждаме детайлно този въпрос, ще отбележим само двата най-важни случая, в които се извършва такава подготовка: в разпознати появи на КСО, 1) които съдържат местоимения с антецедент - елемент Х или У (т.е. термин) и 2) при които елемент Х или У не се реализира на синтактично равнище. В първия случай, след уточняване референцията на местоимението, се посочва неговият антецедент. Във втория случай липсващият термин се възстановява.

Вж. напр. следния разпознат израз за КСО източник-продукт, включващ местоимение с антецедент термин:

<ОИП> Изходна суровина за тяхното (на полиестерните влакна) получаване е </ОИП> дървесната целулоза.

В случая местоимението тяхното има антецедент полиестерни влакна, който е възстановен. По този начин се експлицира участникът в разпознатото отношение - продукт.

Възстановяването на нереализиран в изречението елемент Х или У се илюстрира с изречението:

<ОЧЦ>Съдържа се (лимонената киселина) в </ОЧЦ> лимоновия сок.

В случай е възстановен терминът лимонена киселина, чрез което се експлицира участникът в разпознатото отношение, отнасящ се до частта на цялото.

3. Установяване на пропуски

Валидирането на резултатите от прилагане на първоначално конструираните модели - лексикалните, обхвана и един друг много важен етап - установяване на пропуските, т.е на тези появи на КСО в текста, които не са разпознати.

За тази цел три от файловете с текстове (наречени опитни), бяха прегледани предварително и появите на КСО в тях бяха маркирани ръчно. След прилагане на първоначално конструираните модели сравнихме резултатите от автоматичното и ръчното разпознаване. Очертаха се някои типични случаи на пропуски, които взехме предвид и използвахме в следващия модул - усъвършенстването на моделите.

ІV. Усъвършенстване на моделите на КСО

Установените пропуски при валидирането на лексикалните модели бяха причина да се направят някои подобрения в тези модели. Най-важното подобрение е свързано с включването на още един компонент в състава на моделите - променливите, с което всъщност се въведе още един тип модели - лексикално-граматичните.

При валидирането се установи, че една голяма част от неразпознатите появи на КСО се дължат на дистантно разположение в текста на изразителите на тези отношения. Случаите, в които между тях има външен елемент, не бяха предвидени в моделите и естествено останаха неразпознати. Чрез въвеждането на променливи се обхвана голяма част от тези случаи. Усъвършенстването по този начин на първоначално конструираните модели доведе до чувствително увеличаване на разпознатите появи на КСО.

След представянето на отделните модули на методиката за автоматично разпознаване ще разгледаме един друг важен проблем - за резултатите, постигнати с нея.

Втори раздел. Резултати при разпознаването на КСО в работата. Пълнота и точност

Важен аспект на автоматичното разпознаване на лексикални единици е доколко ефективни са използваните методи. Критерии за ефективността им са показателите точност (presicion) и пълнота (recall), постигнати с тях. С критерия пълнота се установява каква част от всички думи и словосъчетания в един текст, които се отнасят към търсените лексикални единици, са разпознати чрез използваните методи. С критерия точност се установява колко от разпознатите думи и изрази действително спадат към търсените лексикални единици. С помощта на тези критерии се установява по един напълно обективен начин доколко ефективни са използваните методи за автоматично разпознаване.

Показателите точност и пълнота на приложената тук методика са установени върху опитните файлове, съдържащи около 75 000 думи. Такъв обем на езиковия материал, използван за тестване на една методика, обикн. се смята за достатъчен, за да може да бъдат направени адекватни изводи относно ефективността й.

При автоматичното разпознаване на КСО с конструираните тук модели се постига точност 94,7 % и пълнота 80,3 %.Постигнатите добри показатели са най-важното, и при това напълно обективно потвърждение за ефективността на използваните тук методи и подходи за автоматично разпознаване на КСО.

Резултатите напълно потвърждават предварителните ни очаквания. Високата стойност на показателя точност е следствие от това, че в преобладаващата си част моделите удовлетворяват изискването за надеждност. Що се отнася до по-ниската стойност на показателя пълнота, тя се дължи най-вече на факта, че не е възможно да се предвидят абсолютно всички езикови изкази, които едно КСО може да има в текста. При приложения тук подход са обхванати типичните, предсказуеми и най-често срещащи се езикови изрази за КСО. Тези изрази, които са уникални като езиков изказ, остават неразпознати. По наши наблюдения постигнатата стойност на показателя пълнота е близка до максимално възможната за използваните тук лингвистични методи. Тези методи неизбежно поставят някои ограничения, които може да се преодолеят само при комбинирането им с други методи (статистически и др.).

Като се имат предвид стойностите на показателите точност и пълнота, се извежда общ показател за ефективност на методиката (т.нар. f-measure), който е 86,7 % (= 2 х (пълнота х точност) / пълнота + точност).

Тъй като общата ефективност на методиката зависи и от двата показателя, сме се ръководили от стремежа да постигнем оптимално съотношение между тях. Това уточнение са налага поради факта, че с включването на някои модели в модула от модели се постига увеличаване на показателя пълнота, но се снижава показателят точност. Обикн. това са модели, които имат голяма честота в текстовете, но дават грешки в разпознаването. Затова ги наричаме рискови.

По принцип, както се каза, тук се използват модели, които отговарят на изискването за надеждност. В някои случаи обаче се прилага по-гъвкав подход. Има рискови модели, които са с висока честота и поради това е възможно тяхното включване в модула от модели да допринесе за увеличаване на общата ефективност на методиката. За да установим дали един рисков модел отговаря на това условие, прилагаме следния подход. Чрез пробното му тестване в опитните файлове установяваме точността на разпознаването, постигната с него (зависима от процента на грешките). Ако се установи точност от порядъка на 60% и повече, моделът се включва към използваните тук. Смята се, че модели с такъв показател за точност и с висока честота допринасят като цяло за повишаване ефективността на методиката. Модели, при чието тестване се установява по-ниска от посочената точност, не се използват тук.

Рисков модел с висока честота е моделът за КСО източник-продукт "У се получава / се получават от Х". Моделът е рисков поради това, че конструкцията У се получава от Х при одушевен Х може да изразява и отношение обект-вършител (напр. Анилинът се получава от Н. Зинин). Ето защо той беше тестван предварително в опитните файлове, при което се откри само един случай на грешка и многобройни разпознати появи на това КСО. След като се установи, че постигнатата с него точност е задоволителна, а честотата му - висока, той беше включен в модула от модели.

Трети раздел. Проблеми при автоматичното разпознаване на КСО

И накрая, следвайки практиката в разработките от такъв тип, ще разгледаме и някои проблеми, с които се сблъскахме при автоматичното разпознаване на КСО в работата ¹³. Тази практика е много полезна с оглед на търсенето на начини за тяхното решаване.

І. Типични грешки при автоматичното разпознаване на КСО

Макар че установените грешки са една малка част от всички разпознати появи на КСО, е необходимо и полезно да бъдат разгледани по-типичните от тях. Те може да бъдат обединени в няколко групи:

1. Грешки, свързани с нарушаване на изискванията към синтактичния тип на изреченията, в които има появи на КСО

По-горе бе посочено, че моделите, разгледани от синтактична гледна точка, представляват изречения от определени типове. Това означава, че разпознатите с тях появи трябва да са (част от) изречения от същите типове. Моделите на КСО представляват (или са части от) съобщителни изречения или сложни съставни изречения с подчинени определителни. Следователно, ако разпознатите появи на КСО принадлежат на прости изречения, те трябва да са съобщителни. Всички появи на КСО, разпознати в други типове прости изречения, са грешно разпознати. Ако разпознатите появи на КСО принадлежат на сложно съставно изречение, най-голяма е вероятността да са правилни в случаите, когато са част от сложно съставно изречение с подчинено определително.

За илюстрация ще посочим няколко по-чести грешки от този тип. Грешни са напр. разпознатите появи на КСО, които принадлежат на въпросителни изречения. Вж. следния пример:

Какви видове въглеродни атоми (<ОЧЦ>) се съдържат в (</ОЧЦ>) права въглеродна верига? - грешно разпознаване.

Грешно разпознати са и примерите, открити в отрицателни изречения, защото в тях има информация не за наличието на едно КСО, а за отсъствието му. Напр.

Глюкозата не (<ОЧЦ>) съдържа (</ОЧЦ>) карбоксилна група. - грешно разпознаване.

С особено внимание се отнасяме към появите на КСО в сложни съставни изречения с подчинени изречения, които не са определителни. Като се изключат сложните съставни изречения с подчинени обстоятелствени изречения за причина, в които разпознатите появи почти винаги са правилни ¹⁴, в останалите случаи процентът на грешките е по-висок. Грешките се дължат най-често на наличието на модалност или въпрос в главното изречение, които са несъвместими с твърдението за наличие на дадено КСО (т.е. със съобщаването на научен факт). Грешно разпознати са напр. появите на партитивно КСО в сложни съставни изречения като следните:

- с главно заповедно изречение, напр.:

Докажете, че (<ОЧЦ>) в пчелния мед се съдържа (</ОЧЦ>) глюкоза. - грешно разпознаване;

- с модално сказуемо (трябва, необходимо е) в главното изречение, напр.:

За да е качествен, аспиринът не трябва да (<ОЧЦ>) съдържа (</ОЧЦ>) салицилова киселина. - грешно разпознаване;

При полимеризацията е необходимо изходните мономери да (<ОЧЦ>) съдържат (</ОЧЦ>) сложна връзка. - грешно разпознаване.

2. Грешки, свързани с нарушаване на изискването за именен характер на елементите Х и У

Елементите Х и У не се вземат предвид при прилагането на моделите. Те обаче имат роля при валидирането на разпознатите появи (особено в моделите с един маркер - напр. "Х бива / биват У"). Вече се поясни, че тъй като се отнасят за термини, Х и У е необходимо да бъдат имена или именни фрази. Всички разпознати появи, при които има нарушение на това изискване, са грешки. Вж. напр. следната неправилно разпозната поява на родово-видово КСО в изречението:

В редица случаи корундът (<ОРВ>) бива (</ОРВ>) оцветен от някои метални оксиди. - грешно разпознаване.

Този пример е разпознат с модела "Х бива / биват У",отклонението от който се изразява в това, че вместо термин с именен характер до изразителя на предполагаемото КСО е разположено причастие (оцветен).

Засега установяването на този тип грешки става ръчно. По принцип посоченото ограничение към елементите Х и У да бъдат имена или именни фрази е възможно да се зададе и автоматично (поне в част от случаите). Това обаче в момента е неосъществимо поради отсъствието на морфологично и синтактично равнище на обработка на химическия корпус.

3. Грешки, свързани с нарушаването на изискването КСО да се проявява между термини

Както се каза, в работата се интересуваме само от тези КСО, които се проявяват между термини. Ето защо всички разпознати появи на КСО, които се проявяват между лексикални единици с нетерминологичен характер, се отстраняват. Макар тези разпознати появи да не са грешни сами по себе си, те са извън поставеното тук ограничение, поради което ги елиминираме при валидирането.

Такива случаи са най-чести при разпознати появи на функционалното и каузативното КСО.

Вж. следните примери:

1. Куменът <ФО> се използва за </ФО> промишления синтез на фенол и ацетон.

Функционалното отношение се проявява между "кумен" и "промишлен синтез на фенол и ацетон", т.е. вторият участник не отговаря на изискването за терминологичност.

2. Недостигът на желязо в организма <КО> предизвиква </КО> анемия.

Каузативното КСО се проявява между "недостиг на желязо" и "анемия", т.е първият участник в него не е термин.

4. Грешки, породени от неинформативност на примерите

За неинформативни смятаме примерите, в които не е означено конкретно или достатъчно съществено КСО. Формално изразеното в тях КСО се проявява между прекалено общи или прекалено тесни по съдържание термини. Такива появи на КСО, макар да не са грешки, отстраняваме при валидирането.

Вж. следния пример:

Установяването на качествения състав на органичните съединения става чрез качествен елементен анализ, т.е. откриване на елементите (<ОЧЦ>), влизащи в състава на (</ОЧЦ>) съединенията.

Това изречение, макар формално да съдържа израз за КСО, не дава информация за съществуването на конкретно КСО. Означената партитивна връзка в него между "елементи" и "съединения" е с неконкретизирани участници и има прекалено общ характер. Ето защо смятаме примера за неинформативен и го отстраняваме.

Голяма група сред неинформативните примери представляват разпознатите появи на КСО в изречения, които са подчинени определителни от типа ограничителни (рестриктивни) изречения (вж. Граматика ІІІ 1983: 306). В тези изречения относителното местоимение който или чийто стеснява референцията на именната опора по такъв начин, че прави изразеното отношение несъществено. Вж. напр. изречението:

Монокетоните, които (<ОЧЦ>) съдържат (</ОЧЦ>) алкилови остатъци, образуват хомоложен ред.

В този случай изречението не дава информация за наличието на съществено КСО. Посочената в него партитивна връзка (между монокетони от определен тип и алкилови остатъци) е част от съвсем друга логическа верига и не може да послужи за извеждането на КСО, което да представлява интерес за нас. Ето защо смятаме този пример за неинформативен.

За сравнение ще посочим разпозната поява на КСО в изречение от противоположния тип - нерестриктивно определително изречение, в което местоимението няма стесняваща функция:

При осапунването на мазнината се получава сапунен клей <ОЧЦ>, в който се съдържат </ОЧЦ> сапун и глицерол.

От това изречение може да се изведе информация за съществено партитивно отношение между термините клей - название на цялото, и сапун и глицерол - названия на частите му.

ІІ. Пропуски при автоматичното разпознаване на КСО

1. Пропуски поради емфатичен словоред

Някои пропуски в разпознаването са свързани с това, че отделни изрази за КСО имат нетипичен (обикн. емфатичен) словоред. Макар с конструираните модели да обхващаме голяма част от вариациите в езиковия изказ на КСО в текста, вниманието ни е насочено все пак към по-типичните конструкции. Ето защо някои по-необичайни изрази за КСО остават неразпознати.

Вж. напр. неразпознатата поява на КСО източник-продукт в изречението: С азотната киселина взаимодейства и глицерола, при което се получава глицеролтринитрат (нитроглицерин).

В случая КСО източник-продукт се проявява между термините азотна киселина и глицерол - глицеролнитрат. Изречението има емфатичен словоред и не може да бъде разпознато с конструирания модел "Х₁ взаимодейства с Х₂-{същ./NP}, при което се получава У",представящ по-типичните изрази за това КСО.

2. Пропуски в разпознаването поради наличие на две появи на КСО в едно изречение

В някои изречения има две появи на едно и също или на различни КСО. Вж. примера:

<ОИП> Изходна суровина за получаване на </ОИП> поливинилхлорида е мономерът винилхлорид <ОИП>, получен при хлориране на етен </ОИП>.

В това изречение има две появи на КСО източник-продукт, в които участват две двойки термини:

КСО източник-продукт: етен - винилхлорид;

КСО източник-продукт: винилхлорид - поливинилхлорид.

По-чести са случаите на появи на различни КСО в едно изречение. Вж. примера:

<ОРВ> Мазнините са жизненоважни органични съединения, които </ОРВ> <ОЧЦ> изграждат </ОЧЦ> растителните и животинските тъкани.

В това изречение има появи на родово-видово и на партитивно КСО. В тях участват следните двойки от термини:

КСО род-вид: органични съединения - мазнини;

КСО част-цяло: мазнини - растителни и животински тъкани.

В повечето случаи наличието на две появи на КСО в едно изречение не създава затруднения за разпознаването им, тъй като техните изразители не се преплитат. Всеки изразяващ съответното отношение компонент на изречението се разпознава поотделно и бива маркиран със съответния таг.

В някои редки случаи обаче има преплитане на лексикалните единици, изразяващи отделните КСО. Тези случаи създават проблем. Вж. напр. изречението:

Ароматните въглеводороди <ОИП> се получават от </ОИП> каменовъгления катран и при преработката на нефта.

В това изречение има две появи на КСО източник-продукт:

КСО източник-продукт:каменовъглен катран - ароматни въглеводороди;

КСО източник-продукт: нефт - ароматни въглеводороди.

Втората поява обаче няма самостоятелен израз в изречението. Компонентите, които изразяват отношението във втората поява, са "се получава при преработката на".Те се преплитат с изразителите на първото отношение "се получава от". Ето защо втората поява не е разпозната.

3. Проблеми при идентифицирането на КСО в разпознатите появи

За да идентифицираме КСО в една разпозната поява, трябва да установим кои са участниците в него. Във връзка с това в отделни случаи възникват проблеми при правилното идентифициране на отношенията.

Някои разпознати появи изразяват отношения, в които участва един и същи термин. В едни от случаите това се дължи на свързването на съответния термин с по-общ или по-конкретен родов термин, в рамките обаче на едно и също отношение. В други случаи това е резултат от участието на съответния термин в повече от една системни връзки. Налага се да разграничим тези два случая, за да идентифицираме правилно отношенията в разпознатите появи.

Първият случай се проявява при термини, участващи в родово-видово КСО. Той е свързан с възможността един и същ видов термин да има повече от един (обикн. два) родови термина, намиращи се по-високо или по-ниско в понятийната йерархия, които съответно са по-абстрактни или по-конкретни. В такива случаи един и същ видов термин участва в една и съща родово-видова връзка с два родови термина, различаващи се по своята абстрактност. Такъв случай откриваме в следните две разпознати появи на родово-видово КСО:

Белтъчните вещества <ОРВ> са природни полимери, които </ОРВ> са изградени от остатъци на различни a-аминокиселини.

Белтъчните вещества <ОРВ> са природни високомолекулни съединения, </ОРВ> изградени от остатъци на a-аминокиселини.

Тези разпознати появи на пръв поглед изразяват две различни родово-видови отношения: между термините природни полимери и белтъци в първото изречение и между термините високомолекулни съединения и белтъци - във второто. Всъщност двете появи изразяват една и съща системна връзка на термина белтъци, която обаче е на различни нива на абстракция: в първото изречение - между белтъци и по-конкретния родов термин природни полимери; във второто изречение - между белтъци и по-абстрактния родов термин високомолекулни съединения.Ето защо в двете разпознати появи идентифицираме една родово-видова връзка. Изразяваме я по следния начин:

КСО род-вид: природни полимери ( високомолекулни съединения) - белтъци.

Вторият тип разпознати появи на КСО с един и същ участник изразяват две различни отношения, които може да са от един и същ вид или от различен вид. В първия случай терминът, участващ в такива отношения, се отнася към термините с многопосочни системни връзки, за които бе споменато по-напред. Тези термини участват в повече от една системна връзка от един и същ вид. Такъв случай откриваме в две разпознати появи на партитивно КСО в изреченията:

То (нишестето) <ОЧЦ> е смес от </ОЧЦ> две вещества - амилоза (20-30%) и амилопектин (70-80%).

То (нишестето) <ОЧЦ> е смес от </ОЧЦ> макромолекули с различни молекулни маси.

Разпознатите появи на партитивни КСО в тези изречения изразяват две различни партитивни връзки на термина нишесте. Ето защо на двете разпознати появи съответстват две различни партитивни двойки от термини:

КСО част-цяло - амилоза, амилопектин - нишесте;

КСО част-цяло - макромолекули - нишесте.

След като разгледахме създадената методика за автоматично разпознаване на КСО в различните й аспекти, предстои да представим моделите на петте КСО, конструирани в първия й модул.

БЕЛЕЖКИ

1. Вж. напр. Пиърсън (1996), която конструира модели на дефинициите по емпиричен път, въз основа на т.нар. лингвистично (или корпусно) доказателство. [обратно]

2. Вж. и Дейвидсън и др. (1998: 51), според когото всяко концептуално отношение в терминологията се изразява от типични за него, предсказуеми и повтарящи се езикови средства, които имат голяма честота. [обратно]

3. Напомняме, че става дума за лексикално-граматичните и лексикалните модели. [обратно]

4. С този модел напр. се разпознава следната поява на партитивно КСО: В IVА група влизат елементите: въглерод С, силиций Si, германий Gе, калай Sn и олово Рb. [обратно]

5. Т. напр. изоставяме случаите, при които вместо глагол в текста има тире или вместо определена глаголна фраза, изразяваща дадено КСО - нейна безглаголна модификация като напр. в изречението При това взаимодействие се получава сорбит, изходно вещество за синтез на витамин С. Срв. с конструирания модел за КСО източник-продукт "Х е изходно вещество за синтез на У". [обратно]

6. Все пак трябва да се посочи, че предвиждането, респ. моделирането на всички възможни езикови изкази на КСО е невъзможно най-малкото защото не всички имат стандартен и редовен езиков израз. [обратно]

7. Тук терминът вариантност се схваща в едно от значенията му в лингвистиката - като езиково явление, свързано със съществуването на различни по форма езикови средства за изразяване на една и съща езикова същност (вж. Лингвистический энциклопедический словарь). Под термина вариант съответно се разбира езиковата единица, която е проява на такава вариантност. [обратно]

8. За словоредните модели в българския език вж. (Георгиева 1974). [обратно]

9. Трябва да се подчертае, че при изразите, които не съдържат посочените типове глаголи и глаголни форми, това дали имат подлог или не, няма отношение към разпознаването им. Конструираните за тях модели се прилагат независимо от това дали подлогът се реализира или не. Ето защо с модела "Х съдържа / съдържат У" се разпознават появи на КСО както в изречението Стоманата съдържа желязо, така и в изречението Съдържа желязо. [обратно]

10. Изключение от принципа първичните модели да образуват група се прави при моделите с маркер представлявам. Поради известни съображения те не поставят началото на група. [обратно]

11. Както е известно, XML е един от езиците за маркиране на документи. [обратно]

12. За същността и приложението на регулярните XML-базирани изрази в системата CLaRK вж. Симов и др. (2002). [обратно]

13. Някои проблеми при автоматичното разпознаване на КСО се обсъждат и при представянето на моделите на отделните КСО в следващата глава на работата. [обратно]

14. Вж. напр. вярно разпознатата поява на партитивно КСО в изречение от такъв тип Елементите от IIIА група се наричат земни, защото техните оксиди <ОЧЦ> са главна съставна част на </ОЧЦ> почвата. [обратно]

© Сия Колковска
=============================
© Електронно издателство LiterNet, 10.10.2005
Сия Колковска. Модели на концептуално-семантичните отношения между термините в специален (химически) текст с оглед на автоматичното им разпознаване. Варна: LiterNet, 2005