Сия Колковска - Модели на концептуално-семантичните отношения между термините в специален (химически) текст с оглед на автоматичното им разпознаване

УВОД

Сия Колковска

web | Модели на концептуално-семантичните отношения...

Представената работа е посветена на проблема за автоматичното разпознаване на концептуално-семантични отношения в текстове на български език. Тази цел на работата, която е с приложен характер, я причислява към изследванията, имащи непосредствено практическо приложение. Интересът към приложно ориентирани разработки нараства все повече напоследък, включително и в терминологията, и това се отбелязва от редица учени (вж. напр. Кагеура 1997). Тази тенденция е свързана с информационния бум, поставящ нови задачи пред изследователите, и породеното от него широко развитие на информационните технологии, които пък им предоставят качествено различни нови възможности. Сред новите задачи, стоящи пред учените от различни научни дисциплини (между които и приложната лингвистика), е създаването на разработки и средства (софтуерни програми и приложения), които да улеснят достъпа до огромна по обем информация и работата с нея. При изпълнението на тези задачи се създават все повече и разнообразни по характер програмни продукти за компютърна обработка на езика, които бележат различните етапи от развитието на езиковите технологии, улесняващи работата с езика в степен, немислима преди появата им.

Тази разработка е само една стъпка в процеса на развитие на езикови технологии за българския език в едно от неговите направления - автоматичното разпознаване на определени единици в текста. Резултат от работата е създаването на продукт, който има непосредствено практическо приложение - служи за търсене на концептуално-семантични отношения в електронни документи. Този продукт подлежи на усъвършенстване и е възможно да бъде доразвит, като се използват и други методи. Така или иначе обаче, той е една основа за извършването на автоматично разпознаване на концептуално-семантични отношения в текстове на български език - едно направление, което има бъдеще и предстои тепърва да бъде развивано в българската компютърна лингвистика.

1. Цел и задачи на работата

Целта на работата е автоматичното разпознаване на концептуално-семантични отношения (по-нататък КСО) между термини в специални текстове на български език.

Основната задача на работата се състои в създаването на методика, чрез която да се осъществи поставената цел. Съгласно с избрания тук метод тя включва като основен компонент конструирането на модели на КСО, с които да се извършва тяхното разпознаване в текста.

Трябва да се подчертае, че тук се занимаваме с автоматичното разпознаване само на тези КСО, които се проявяват между термини. По принцип всяко КСО се проявява между определени лексикални единици, които означават участниците в него. Тук обаче ни интересуват само случаите, в които тези лексикални единици са термини. Причината за това ограничение е свързана с по-широката перспектива на тази разработка.

Целта, която си поставяме тук, е първа стъпка от една по-обща цел - разпознаването (автоматично и полуавтоматично) на термини в специални текстове. При разпознаването на едно концептуално-семантично отношение в текста се откриват и термините, участващи в него. Ето защо разпознаването на КСО между термини и разпознаването на самите термини са две тясно свързани цели.

На по-общата и далечна цел - разпознаването на термини в специални текстове, ще бъде посветена следваща работа. Методиката, която създаваме тук, е първа част от по-общата методика за разпознаване на термини в специални текстове на български език.

Възможно е осъществяването на двете цели - автоматичното разпознаване на КСО и на термини, да стане и в обратната последователност - първо да се разпознаят термините и след това - КСО между тях ¹. За да се върви по този път обаче, са необходими развити софтуерни средства за разпознаване на термини, каквито все още липсват за българския език.

Приложните по характер цел и задачи на работата определят практическата й насоченост, която от своя страна обуславя нейната специфика. Същевременно трябва да се подчертае, че въпреки приложния характер на работата в нея се разглеждат и теоретични проблеми. При решаването на основната й задача неминуемо се засягат въпроси, свързани с типологията и същността на КСО. Неизбежно се достига и до някои проблеми относно проявяващите се в терминологията отношения, които все още чакат своето решение според Сейгър. Сред тях са въпросите дали има други отношения освен общоизвестните, които са общи за всички специални области, а също и дали съществуват специфични за някои специални области отношения (Сейгър 1990: 53). Разбира се, цялостното решаване на тези въпроси не е сред основните задачи на работата, но те все пак имат място в нейната проблематика.

Специалната област, в която се извършва разпознаването на КСО тук, е химическата. Този избор е продиктуван от две причини. От една страна, той се обуславя от наличието на достъпни химически текстове в електронен вид. От друга страна, не без значение е опитът ни по отношение на химическите термини и известни знания за системните им отношения, което улеснява работата ни тук ².

Тъй като автоматичното разпознаване на КСО се извършва в химически текстове, конструираните модели са съобразени главно с особеностите на тези текстове. Същевременно трябва да се подчертае, че сме се ръководили от стремежа моделите да бъдат по-широко приложими и да може да се използват и в други специални области (най-вече свързаните с природните науки). Ето защо при тяхното конструиране и подбор сме се стремили да постигнем един баланс между специфични и общоприложими модели.

2. Значимост и актуалност на темата

Поради това, че основната цел на работата има приложен характер, нейната значимост се изразява предимно в широкото й практическо приложение както в компютърната лингвистика, така и в области извън нея.

Автоматичното разпознаване на КСО е много перспективно направление в компютърната обработка на естествен език. То е само едно от направленията в по-общия проблем, отнасящ се до автоматичното откриване в електронни документи на определени езикови единици - собствени имена (лични имена, географски имена, имена на организации), думи със събитийна семантика, ключови думи, термини и др. От своя страна, откриването на определени думи и изрази в електронни документи има много приложения, най-важното от които е свързано с една друга много значима цел - автоматичното извличане на информация от електронни текстове, включително и автоматичното им резюмиране.

Интересът към автоматичното разпознаване на КСО се дължи и на друга причина, свързана с важността на тези отношения за науката и терминологията. Концептуално-семантичните отношения и особено тези от йерархичен тип - родово-видовите и партитивните, са основата, върху която са организирани в системи научните понятия, респ. - термините в съответните специални области. Заедно с понятията те изграждат структурата на знанието в специалните области (Мейер и др. 1997). Поради важността на КСО за науката и терминологията автоматичното им разпознаване е много перспективно направление именно в областите автоматична обработка на знания (knowledge engineering) и компютърна терминология. Автоматично разпознатите КСО имат редица приложения, които ще разгледаме по-подробно в глава първа.

Автоматичното разпознаване на КСО е актуална задача особено по отношение на българския език, който не е бил подлаган досега системно на такъв вид обработка (според информацията, която ни е достъпна)³.

И накрая трябва да се подчертае, че макар работата да третира проблеми на компютърната лингвистика, нашият стремеж беше да я задълбочим и в чисто лингвистичен план. Ето защо обърнахме по-голямо внимание на лингвистичните проблеми, възникнали при конструирането на моделите и създаването на методиката. Това е причина за по-подробните лингвистични описания и аргументация в работата (особено относно конструираните модели), които по принцип не са обичайни за сходните разработки върху други езици. Ръководихме се и от желанието работата да бъде по-лесно разбираема и за специалисти с чисто лингвистична подготовка. Това обяснява някои специфични решения в работата, включително и вида, в който представяме конструираните модели. Те са представени в по-лингвистичния им вид, а не във вида, в който се прилагат (като т.нар. регулярни изрази).

3. Предварителна подготовка за работата. Създаване на електронен корпус от химически текстове

Поради характера на тази разработка абсолютно необходима предпоставка за реализацията й е наличието на електронен корпус от химически текстове. Без наличието на такъв корпус автоматичното търсене на КСО е немислимо. За разлика от други езици, за които съществуват разнообразни по характер електронни корпуси, специални корпуси на българския език липсват. Създадените досега корпуси на нашия език имат по-широко предназначение и включват предимно или само текстове от общоупотребимия език ⁴. Ето защо се наложи преди започването на същинската работа да бъде създаден корпус от химически текстове. Това всъщност е първият чисто терминологичен корпус на българския език.

Създаването на химическия корпус бе съобразено с основните положения на корпусната лингвистика (особено с тези, отнасящи се до корпусите за специални цели). Трябва да се подчертае, че тук няма да засягаме проблеми на корпусната лингвистика, които имат отношение към един предварителен етап на работата. Този етап е много важен, разбира се, но излиза извън нейните същински задачи. Ще отбележим само, че използването на електронен корпус причислява настоящата работа към корпусно базираните изследвания.

Химическият корпус съдържа около 350 000 думи. Той включва електронни текстове (предимно лекции и учебници), взети от Интернет. Използват се и електронни текстове, принадлежащи на Електронния архив към Института за български език ⁵.

Създаденият корпус не е подлаган на лингвистична обработка (като напр. парсиране, морфологично и синтактично анотиране и др.). Извършването на такава обработка, макар и да би било полезно с оглед на нашите задачи, би забавило значително същинската работа по разпознаването на КСО. Освен това и без наличието на тези равнища на обработка корпусът е приложим за нашите цели. Това, че той не е анотиран морфологично и синтактично (т.е. че не са експлицирани морфологичните и синтактичните характеристики на лексикалните единици в него) не е пречка за използването му тук, като, разбира се, не е и без значение, доколкото обуславя някои особености на конструираните модели.

Прилагането на моделите на КСО в корпуса се извършва със софтуерната програма ClaRK, предназначена за лингвистична обработка на корпуси (вж. Симов и др. 2001).

* * *

Работата има следната структура. Първа глава представлява кратко въведение в автоматичното разпознаване на концептуално-семантични отношения и неговите приложения. Втора глава е посветена на концептуално-семантичните отношения, като се разглежда тяхната типология и се характеризират тези от тях, които са обект на внимание в работата. Трета глава въвежда в особеностите на конструираните тук модели на концептуално-семантичните отношения, свързани с тяхната същност и състав. Четвърта глава е посветена на методиката за автоматично разпознаване на концептуално-семантични отношения, приложена в работата. Пета глава съдържа основните модели на петте концептуално-семантични отношения, които се разпознават тук. В отделно приложение в края на работата са представени тези модели, които имат най-голяма честота в химическите текстове.

БЕЛЕЖКИ

1. Т. напр. Кондамин, Ребейрол (1998) първо установяват кои са кандидат-термините в текста, като използват системата LEXTER за разпознаване на термини във френския език (за тази система вж. Буригол и др. 1996). Едва след това те пристъпват към разпознаване на КСО в текста. [обратно]

2. Този опит е придобит при съставянето на химическата част на "Речник на основните термини. Т. І. Природни науки" с автори М. Попова, С. Колковска, Г. Димитрова, А. Христова, Е. Петкова. [обратно]

3. Единствените известни ни данни се отнасят за работата по извличане на термини, извършвана във фирма "Апис" (вж. Езикови технологии 2003: 135-137). [обратно]

4. Вж. следните корпуси на българския език - Електронен архив към Института за български език (под ръководството на М. Стамболиева) <http://www.ibl.bas.bg/resources_en.htm> (24.09.2005); Електронен архив към проекта Бултрибанк <www.Bultreebank.org> (24.09.2005); Електронен архив към проекта BalkaNet <www.ceid.upatras.gr/Balkanet> (24.09.2005). [обратно]

5. Тези текстове ни бяха предоставени от М. Стамболиева, за което й дължим благодарност. [обратно]

© Сия Колковска
=============================
© Електронно издателство LiterNet, 10.10.2005
Сия Колковска. Модели на концептуално-семантичните отношения между термините в специален (химически) текст с оглед на автоматичното им разпознаване. Варна: LiterNet, 2005