Издателство
:. Издателство LiterNet  Електронни книги: Условия за публикуване
Медии
:. Електронно списание LiterNet  Електронно списание: Условия за публикуване
:. Електронно списание БЕЛ
:. Културни новини   Kултурни новини: условия за публикуване  Новини за култура: RSS абонамент!  Новини за култура във Facebook!  Новини за култура в Туитър
Каталози
:. По дати : Март  Издателство & списание LiterNet - абонамент за нови публикации  Нови публикации на LiterNet във Facebook! Нови публикации на LiterNet в Twitter!
:. Електронни книги
:. Раздели / Рубрики
:. Автори
:. Критика за авторите
Книжарници
:. Книжен пазар  Книжарница за стари книги Книжен пазар: нови книги  Стари и антикварни книги от Книжен пазар във Facebook  Нови публикации на Книжен пазар в Twitter!
:. Книгосвят: сравни цени  Сравни цени с Книгосвят във Facebook! Книгосвят - сравни цени на книги
Ресурси
:. Каталог за култура
:. Артзона
:. Писмена реч
За нас
:. Всичко за LiterNet
Настройки: Разшири Стесни | Уголеми Умали | Потъмни | Стандартни

Първа глава

АВТОМАТИЧНО РАЗПОЗНАВАНЕ НА КОНЦЕПТУАЛНО-СЕМАНТИЧНИ ОТНОШЕНИЯ

Сия Колковска

web | Модели на концептуално-семантичните отношения...

1. Кратко описание

Поради това, че автоматичното разпознаване на лексикални единици е все още слабо разработван проблем в българската компютърна лингвистика, тук ще обясним накратко в какво се изразява същността му. Поради желанието ни работата да бъде лесно разбираема и от хора с чисто лингвистична подготовка, това обяснение ще бъде по-популярно.

Автоматичното разпознаване1 на КСО се състои в това изразяващите КСО думи и изрази в електронен текст да бъдат открити автоматично с определен метод, без да е необходим предварителен анализ на текстовете. Всеки отделен случай, в който е разпознато дадено КСО, се смята за отделна негова поява в текста2.

Съгласно с избрания тук метод прилагаме определени модели, с които разпознаваме появи на търсеното отношение в текста. Разпознаването е автоматично, защото то се извършва чрез налагане на моделите към текста, в който се търси, и маркиране на тези случаи, при които има съвпадение на даден модел с елемент (или елементи) на текста. Този елемент се маркира като поява на търсеното КСО. Маркирането става с помощта на определени символи - тагове, различни за отделните КСО.

Т. напр. автоматично разпознаваме поява на КСО част-цяло в следното изречение: Аминокиселините <ОЧЦ> съдържат </ОЧЦ> две функционални групи - карбоксилна и аминна. Разпознаването се извършва чрез прилагане на определен модел ("Х съдържа У"). Лексикалната единица, която изразява КСО част-цяло, се маркира автоматично с таговете <ОЧЦ> и </ОЧЦ> (съответно отварящ и затварящ таг), които означават отношение част-цяло.

2. Разработки върху автоматичното разпознаване на концептуално-семантични отношения за други езици.

Проблемът за автоматичното разпознаване на КСО е разработван за езици като английски, френски, немски, испански и др. Много са учените, които се занимават с този проблем. Т. напр. Фелиу, Кабре (2002), Л’Ом (2001), Кондамин, Ребейрол (1998), Дейвидсън и др. (1998), Сегюела, Осенак (1999) извършват автоматично разпознаване на КСО в терминологични текстове, а Херст (1992) - в текстове на общоупотребимия език. Изброените учени се занимават с разпознаването на голям брой отношения с изключение на Херст, който се интересува от определено КСО - родово-видовото.

Методите за автоматично разпознаване на КСО, използвани от изброените учени, са разгледани по-нататък в работата (вж. Трета глава, част І.).

3. Електронни ресурси, използвани при разпознаване на концептуално-семантичните отношения.

Важен е проблемът за използваните при автоматичното разпознаване на КСО електронни ресурси.

КСО може да се търсят както в текста, така и в речници, където са експлицирани в дефинициите на тълкуваните лексикални единици. Това позволява автоматичното разпознаване на КСО (и на термини) да се извършва предимно в два вида електронни ресурси: корпуси и електронни речници.

3.1. Корпуси от електронни текстове

Автоматичното разпознаване на КСО се извършва в два типа корпуси - специални (напр. при Фелиу, Кабре 2002, Кондамин, Ребейрол 1998, Пиърсън 1996) и на общоупотребимия език (напр. при Херст 1992) според това от каква сфера са търсените КСО.

3.2. Електронни речници (т.нар. машинно-читаеми (machine-readable) речници)

За целите на автоматичното разпознаване на КСО се използват както електронни терминологични речници (напр. при Л’Ом), така и речници на общоупотребимия език (напр. при Марковиц и др. 1986, Алшави 1987) отново в зависимост от областта, към която принадлежат търсените КСО.

Автоматичното разпознаване на КСО в работата се извършва в електронен корпус от специални (химически) текстове. Смята се, че специалният текст е достатъчно надежден източник за откриване на КСО. Тъй като всеки текст представя определен отрязък от научното знание, организирано именно посредством КСО, това гарантира проявата на тези отношения в текста с необходимата честота.

Видът на използваните ресурси, а също и други особености на автоматичното разпознаване на КСО се обуславят от това, какво ще бъде предназначението на разпознатите отношения.

4. Приложения на автоматичното разпознаване на концептуално-семантични отношения.

Автоматичното разпознаване на КСО е с голям потенциал поради това, че откритите по такъв начин отношения имат много и разнообразни по характер приложения. Една част от тези приложения са опосредствани от откриването на лексикалните единици, които участват в разпознатите отношения (вж. напр. 4.2.2.).

Приложенията на автоматично разпознатите КСО може да се обединят в три групи:

4.1. За автоматично и полуавтоматично разпознаване на лексикалните единици, участващи в разпознатото отношение

КСО винаги се проявяват като отношения между две или повече понятия, респ. като отношения между изразяващите ги лексикални единици. Ето защо разпознаването на КСО може да е основа за откриването на лексикалните единици, участващи в тях. Херст (1992) напр. при разпознаването на родово-видови отношения в текстове открива и лексикалните единици, свързани с тези отношения.

Както се каза, подобно предназначение ще имат и КСО, разпознати тук. Въз основа на тези разпознати отношения ще се търсят термините, участващи в тях, като на тази задача ще бъде посветена следваща разработка.

Автоматичното разпознаване на КСО улеснява построяването на понятийни и езикови йерархии, като прави възможно това да става автоматично.

4.2. За автоматично построяване на понятийни и езикови йерархии

Това приложение на автоматично разпознатите КСО е обусловено от важността им за науката и терминологията. Както се каза, родово-видовите и партитивните КСО са основата, върху която са организирани в системи научните понятия, респ. термините в съответните специални области. Ето защо с автоматичното им разпознаване се създават предпоставки за автоматично построяване на понятийни и езикови йерархии.

4.2.1. За автоматично построяване на понятийни йерархии

Концептуално-семантични отношения, автоматично разпознати в корпуси или извлечени от електронни речници, може да се използват за автоматично създаване на терминологични бази знания и понятийни онтологии.

Терминологичните бази знания и понятийните онтологии са по-ново поколение понятийни йерархии, представящи формализирано понятийните системи в определена специална област или в общоупотребимия език. Те съдържат по-богато и по-структурирано знание от конвенционалните терминологични бази данни и терминологичните речници.

Идеята за създаване на терминологични бази знания принадлежи на И. Мейер. Те представляват високоструктурирани бази от знания, в които се експлицират атрибутите на понятията от определена област и техните отношения (Мейер и др. 1997). Атрибутите са характеристики на понятията, които са им вътрешно присъщи за разлика от отношенията, свързани с тяхното място спрямо други понятия в понятийната система. Терминологичните бази знания се различават от обичайните бази знания по това, че включват и лингвистична информация (напр. граматични особености на съответните термини, техни еквиваленти в други езици и др.)3.

Понятийните онтологии са близки по същност до терминологичните бази знания. Те представят (обикн. много детайлно) понятията в съответната понятийна система и техните отношения4.

Автоматично разпознати отношения може да бъдат използвани за автоматично създаване на терминологични бази знания (вж. Мейер и др. 1997, Дейвидсън и др. 1998) и на понятийни онтологии. Реализация на тази възможност представлява създадената от Фелиу понятийна онтология в областта генетика (раздел човешки геном), при което са използвани автоматично извлечени КСО (Фелиу и др. 2002). Като пример може да се посочи и конструираната от Кондамин, Ребейрол (1998) терминологична база знания въз основа на автоматично извлечени от корпус термини и отношения между тях. Тази база знания според авторите улеснява достъпа до съдържащото се в електронните текстове знание.

4.2.2. За автоматично построяване на езикови йерархии

Автоматично разпознати КСО намират приложение и при автоматичното създаване на различни видове йерархии на термините (напр. терминологични бази данни и др.). Употребата на автоматично открити отношения с такава цел изисква да са известни лексикалните единици, които участват в тях. Фере напр. подрежда в лексикална йерархия термините, предварително открити в корпус, като използва автоматично извлечените отношения между тях (Фере и др. 2002).

Автоматичното построяване на лексикални йерархии се прилага не само при термини, но и при общоупотребими единици. Херст (1992) напр. въз основа на родово-видовите отношения, които е открил в корпус от общоупотребими текстове, автоматично създава йерархия от участващите в тях думи.

4.3. Приложение в лексикографията и терминографията

Резултатите от автоматичното разпознаване на концептуално-семантични отношения в електронни текстове може да намерят практическо приложение и в области извън компютърната лингвистика като напр. лексикографията и терминографията. Разпознаването на КСО позволява автоматично да се извлекат от текстове йерархично свързаните лексикални единици. Знанията за тези йерархични връзки може да се използват при създаване на тезауруси, а също и за подобряване представянето на системността в съществуващи речници, тезауруси и семантични мрежи. При съпоставянето на извлечените йерархично свързани лексикални единици с имплицитно присъстващите във всеки тълковен речник и семантична мрежа системни отношения може да се установят непоследователности и пропуски, които би трябвало да бъдат коригирани. Херст напр. оценява пълнотата и точността на семантичната мрежа WordNet, като проверява как са представени в нея автоматично откритите от него групи от хипоними и хипероними (вж. Херст 1992).

Резултатите от автоматичното разпознаване на КСО са приложими и в терминографията. За илюстрация ще опишем опита ни в използването на автоматично разпознати КСО при съставителството на терминологичен речник. Като анализирахме автоматично разпознати партитивни и родово-видови КСО, установихме някои родови-видови и партитивни двойки, отчитането на които спомогна да се подобри представянето на системните връзки в химическата част на споменатия по-горе "Речник на основните термини. Т.1. Природни науки" в две отношения5:

- за прецизиране на системните връзки на някои химически термини, които са представени непоследователно в различните източници, използвани при създаване на речника (най-вече при термини, за които се сочат различни родови термини или различни термини за съставни части);

- за допълване на речника с термини, липсващи до този момент в него, които обаче имат място в химическата подсистема6.

С разгледания пример се илюстрира само едно от приложенията, които автоматично разпознати КСО имат и в по-традиционни лингвистични области като лексикографията и терминографията.

Такива приложения на автоматично разпознати КСО (и термини) засега са разработени и се използват само за други езици. Напълно е възможно аналогични приложения да се създадат и за българския език, така че да подпомогнат усъвършенстването на продуктите на лексикографската дейност7.

Трябва да се отбележи и това, че автоматичното разпознаване на КСО (и на свързаните с тях термини) може да улесни и теоретичната терминологична работа. То би позволило дългият и трудоемък процес на събиране на терминологичен материал да бъде значително ускорен и облекчен, като бъде сведен до краен брой операции. По този начин цялата предварителна работа по един теоретичен труд би се минимизирала като време и вложени усилия.

Многобройните приложения на автоматично разпознатите КСО обуславят актуалността и важността на поставената в тази работа задача.

 

 

БЕЛЕЖКИ

1. В литературата по компютърна лингвистика освен термина автоматично разпознаване (automatic recognition) се използват и синонимите му автоматично откриване (automatic detection) и автоматично извличане (automatic extraction). [обратно]

2. За назоваването на тези думи и изрази в текста, които изразяват КСО, се въвежда терминът богат на знания контекст (knowledge-rich context) (Мейер и др. 1997). [обратно]

3. Някои учени разбират терминологичните бази знания по-широко, като включват в тях не само формализирано представени понятийни системи, но и други модули като напр. текстови бази от данни (вж. Фелиу и др. 2002). [обратно]

4. Описание на съществуващите онтологии вж. у Фелиу и др. (2002). [обратно]

5. Повече информация за това приложение на автоматично разпознати КСО в терминографията вж. у Колковска (2004). [обратно]

6. Т. напр. при автоматичното разпознаване на партитивни КСО се установи, че при термина макромолекула има термин за част елементарно звено, който не е отразен в използваните източници. Ето защо към включената в Речника партитивна двойка полимер - макромолекула се добави и двойката макромолекула - елементарно звено, заемаща по-ниско място в йерахията от термини. [обратно]

7. Автоматично разпознатите КСО може да намерят аналогично приложение, свързано с прецизиране представянето на системността, и по отношение на семантичните мрежи. [обратно]

 

 

© Сия Колковска
=============================
© Електронно издателство LiterNet, 10.10.2005
Сия Колковска. Модели на концептуално-семантичните отношения между термините в специален (химически) текст с оглед на автоматичното им разпознаване. Варна: LiterNet, 2005