|
Настройки: Разшири Стесни | Уголеми Умали | Потъмни | Стандартни
Първа глава АВТОМАТИЧНО РАЗПОЗНАВАНЕ НА КОНЦЕПТУАЛНО-СЕМАНТИЧНИ ОТНОШЕНИЯ Сия Колковска web | Модели на концептуално-семантичните отношения... 1. Кратко описание Поради това, че автоматичното разпознаване на лексикални единици е все още слабо разработван проблем в българската компютърна лингвистика, тук ще обясним накратко в какво се изразява същността му. Поради желанието ни работата да бъде лесно разбираема и от хора с чисто лингвистична подготовка, това обяснение ще бъде по-популярно. Автоматичното разпознаване1 на КСО се състои в това изразяващите КСО думи и изрази в електронен текст да бъдат открити автоматично с определен метод, без да е необходим предварителен анализ на текстовете. Всеки отделен случай, в който е разпознато дадено КСО, се смята за отделна негова поява в текста2. Съгласно с избрания тук метод прилагаме определени модели, с които разпознаваме появи на търсеното отношение в текста. Разпознаването е автоматично, защото то се извършва чрез налагане на моделите към текста, в който се търси, и маркиране на тези случаи, при които има съвпадение на даден модел с елемент (или елементи) на текста. Този елемент се маркира като поява на търсеното КСО. Маркирането става с помощта на определени символи - тагове, различни за отделните КСО. Т. напр. автоматично разпознаваме поява на КСО част-цяло в следното изречение: Аминокиселините <ОЧЦ> съдържат </ОЧЦ> две функционални групи - карбоксилна и аминна. Разпознаването се извършва чрез прилагане на определен модел ("Х съдържа У"). Лексикалната единица, която изразява КСО част-цяло, се маркира автоматично с таговете <ОЧЦ> и </ОЧЦ> (съответно отварящ и затварящ таг), които означават отношение част-цяло. 2. Разработки върху автоматичното разпознаване на концептуално-семантични отношения за други езици. Проблемът за автоматичното разпознаване на КСО е разработван за езици като английски, френски, немски, испански и др. Много са учените, които се занимават с този проблем. Т. напр. Фелиу, Кабре (2002), Л’Ом (2001), Кондамин, Ребейрол (1998), Дейвидсън и др. (1998), Сегюела, Осенак (1999) извършват автоматично разпознаване на КСО в терминологични текстове, а Херст (1992) - в текстове на общоупотребимия език. Изброените учени се занимават с разпознаването на голям брой отношения с изключение на Херст, който се интересува от определено КСО - родово-видовото. Методите за автоматично разпознаване на КСО, използвани от изброените учени, са разгледани по-нататък в работата (вж. Трета глава, част І.). 3. Електронни ресурси, използвани при разпознаване на концептуално-семантичните отношения. Важен е проблемът за използваните при автоматичното разпознаване на КСО електронни ресурси. КСО може да се търсят както в текста, така и в речници, където са експлицирани в дефинициите на тълкуваните лексикални единици. Това позволява автоматичното разпознаване на КСО (и на термини) да се извършва предимно в два вида електронни ресурси: корпуси и електронни речници.
Автоматичното разпознаване на КСО се извършва в два типа корпуси - специални (напр. при Фелиу, Кабре 2002, Кондамин, Ребейрол 1998, Пиърсън 1996) и на общоупотребимия език (напр. при Херст 1992) според това от каква сфера са търсените КСО.
За целите на автоматичното разпознаване на КСО се използват както електронни терминологични речници (напр. при Л’Ом), така и речници на общоупотребимия език (напр. при Марковиц и др. 1986, Алшави 1987) отново в зависимост от областта, към която принадлежат търсените КСО. Автоматичното разпознаване на КСО в работата се извършва в електронен корпус от специални (химически) текстове. Смята се, че специалният текст е достатъчно надежден източник за откриване на КСО. Тъй като всеки текст представя определен отрязък от научното знание, организирано именно посредством КСО, това гарантира проявата на тези отношения в текста с необходимата честота. Видът на използваните ресурси, а също и други особености на автоматичното разпознаване на КСО се обуславят от това, какво ще бъде предназначението на разпознатите отношения. 4. Приложения на автоматичното разпознаване на концептуално-семантични отношения. Автоматичното разпознаване на КСО е с голям потенциал поради това, че откритите по такъв начин отношения имат много и разнообразни по характер приложения. Една част от тези приложения са опосредствани от откриването на лексикалните единици, които участват в разпознатите отношения (вж. напр. 4.2.2.). Приложенията на автоматично разпознатите КСО може да се обединят в три групи:
КСО винаги се проявяват като отношения между две или повече понятия, респ. като отношения между изразяващите ги лексикални единици. Ето защо разпознаването на КСО може да е основа за откриването на лексикалните единици, участващи в тях. Херст (1992) напр. при разпознаването на родово-видови отношения в текстове открива и лексикалните единици, свързани с тези отношения. Както се каза, подобно предназначение ще имат и КСО, разпознати тук. Въз основа на тези разпознати отношения ще се търсят термините, участващи в тях, като на тази задача ще бъде посветена следваща разработка. Автоматичното разпознаване на КСО улеснява построяването на понятийни и езикови йерархии, като прави възможно това да става автоматично.
Това приложение на автоматично разпознатите КСО е обусловено от важността им за науката и терминологията. Както се каза, родово-видовите и партитивните КСО са основата, върху която са организирани в системи научните понятия, респ. термините в съответните специални области. Ето защо с автоматичното им разпознаване се създават предпоставки за автоматично построяване на понятийни и езикови йерархии.
Концептуално-семантични отношения, автоматично разпознати в корпуси или извлечени от електронни речници, може да се използват за автоматично създаване на терминологични бази знания и понятийни онтологии. Терминологичните бази знания и понятийните онтологии са по-ново поколение понятийни йерархии, представящи формализирано понятийните системи в определена специална област или в общоупотребимия език. Те съдържат по-богато и по-структурирано знание от конвенционалните терминологични бази данни и терминологичните речници. Идеята за създаване на терминологични бази знания принадлежи на И. Мейер. Те представляват високоструктурирани бази от знания, в които се експлицират атрибутите на понятията от определена област и техните отношения (Мейер и др. 1997). Атрибутите са характеристики на понятията, които са им вътрешно присъщи за разлика от отношенията, свързани с тяхното място спрямо други понятия в понятийната система. Терминологичните бази знания се различават от обичайните бази знания по това, че включват и лингвистична информация (напр. граматични особености на съответните термини, техни еквиваленти в други езици и др.)3. Понятийните онтологии са близки по същност до терминологичните бази знания. Те представят (обикн. много детайлно) понятията в съответната понятийна система и техните отношения4. Автоматично разпознати отношения може да бъдат използвани за автоматично създаване на терминологични бази знания (вж. Мейер и др. 1997, Дейвидсън и др. 1998) и на понятийни онтологии. Реализация на тази възможност представлява създадената от Фелиу понятийна онтология в областта генетика (раздел човешки геном), при което са използвани автоматично извлечени КСО (Фелиу и др. 2002). Като пример може да се посочи и конструираната от Кондамин, Ребейрол (1998) терминологична база знания въз основа на автоматично извлечени от корпус термини и отношения между тях. Тази база знания според авторите улеснява достъпа до съдържащото се в електронните текстове знание.
Автоматично разпознати КСО намират приложение и при автоматичното създаване на различни видове йерархии на термините (напр. терминологични бази данни и др.). Употребата на автоматично открити отношения с такава цел изисква да са известни лексикалните единици, които участват в тях. Фере напр. подрежда в лексикална йерархия термините, предварително открити в корпус, като използва автоматично извлечените отношения между тях (Фере и др. 2002). Автоматичното построяване на лексикални йерархии се прилага не само при термини, но и при общоупотребими единици. Херст (1992) напр. въз основа на родово-видовите отношения, които е открил в корпус от общоупотребими текстове, автоматично създава йерархия от участващите в тях думи.
Резултатите от автоматичното разпознаване на концептуално-семантични отношения в електронни текстове може да намерят практическо приложение и в области извън компютърната лингвистика като напр. лексикографията и терминографията. Разпознаването на КСО позволява автоматично да се извлекат от текстове йерархично свързаните лексикални единици. Знанията за тези йерархични връзки може да се използват при създаване на тезауруси, а също и за подобряване представянето на системността в съществуващи речници, тезауруси и семантични мрежи. При съпоставянето на извлечените йерархично свързани лексикални единици с имплицитно присъстващите във всеки тълковен речник и семантична мрежа системни отношения може да се установят непоследователности и пропуски, които би трябвало да бъдат коригирани. Херст напр. оценява пълнотата и точността на семантичната мрежа WordNet, като проверява как са представени в нея автоматично откритите от него групи от хипоними и хипероними (вж. Херст 1992). Резултатите от автоматичното разпознаване на КСО са приложими и в терминографията. За илюстрация ще опишем опита ни в използването на автоматично разпознати КСО при съставителството на терминологичен речник. Като анализирахме автоматично разпознати партитивни и родово-видови КСО, установихме някои родови-видови и партитивни двойки, отчитането на които спомогна да се подобри представянето на системните връзки в химическата част на споменатия по-горе "Речник на основните термини. Т.1. Природни науки" в две отношения5:
С разгледания пример се илюстрира само едно от приложенията, които автоматично разпознати КСО имат и в по-традиционни лингвистични области като лексикографията и терминографията. Такива приложения на автоматично разпознати КСО (и термини) засега са разработени и се използват само за други езици. Напълно е възможно аналогични приложения да се създадат и за българския език, така че да подпомогнат усъвършенстването на продуктите на лексикографската дейност7. Трябва да се отбележи и това, че автоматичното разпознаване на КСО (и на свързаните с тях термини) може да улесни и теоретичната терминологична работа. То би позволило дългият и трудоемък процес на събиране на терминологичен материал да бъде значително ускорен и облекчен, като бъде сведен до краен брой операции. По този начин цялата предварителна работа по един теоретичен труд би се минимизирала като време и вложени усилия. Многобройните приложения на автоматично разпознатите КСО обуславят актуалността и важността на поставената в тази работа задача.
БЕЛЕЖКИ 1. В литературата по компютърна лингвистика освен термина автоматично разпознаване (automatic recognition) се използват и синонимите му автоматично откриване (automatic detection) и автоматично извличане (automatic extraction). [обратно] 2. За назоваването на тези думи и изрази в текста, които изразяват КСО, се въвежда терминът богат на знания контекст (knowledge-rich context) (Мейер и др. 1997). [обратно] 3. Някои учени разбират терминологичните бази знания по-широко, като включват в тях не само формализирано представени понятийни системи, но и други модули като напр. текстови бази от данни (вж. Фелиу и др. 2002). [обратно] 4. Описание на съществуващите онтологии вж. у Фелиу и др. (2002). [обратно] 5. Повече информация за това приложение на автоматично разпознати КСО в терминографията вж. у Колковска (2004). [обратно] 6. Т. напр. при автоматичното разпознаване на партитивни КСО се установи, че при термина макромолекула има термин за част елементарно звено, който не е отразен в използваните източници. Ето защо към включената в Речника партитивна двойка полимер - макромолекула се добави и двойката макромолекула - елементарно звено, заемаща по-ниско място в йерахията от термини. [обратно] 7. Автоматично разпознатите КСО може да намерят аналогично приложение, свързано с прецизиране представянето на системността, и по отношение на семантичните мрежи. [обратно]
© Сия Колковска
|