Skip to main content

Ishonch telefoni: +(99872) 226 68 10

TIL KORPUSIDA IFODALANGAN LINGVISTIK AXBOROT DASTURLARIDAN FOYDALANISH

Xidirov Otabek – f.f.f.d (PhD) Jizzax davlat pedagogika universiteti Annotatsiya: Ushbu maqolada korpuslar razmetkasida ifodalangan lingvistik axborotlardan foydalanish hamda matnga avtomatik ishlov berish, sintaktik razmetkalashning dasturiy ta’minoti tahlil ostiga olingan.  Annotatsiya: V state analiziruetsya ispolzovanie lingvisticheskoy informatsii, v’rajennoy v korpuse i programmnom obespechenii dlya avtomaticheskoy obrabotki teksta, sintaksicheskogo razresheniya. Annatation:This article analyzes the use of linguistic information expressed in the case of case of the case , as well as the software for automatic processing of text syntactic notation.. Kalit so‘zlar: Morfologik axborot, sintaktik axborot, korpus,   dasturiy ta’minot, matn razmetkasi, sintaktik tahlil dasturlari,  korpus   razmetkasi. Klyuchev’e slova: Morfologicheskaya informatsiya, sintaksicheskaya informatsiya,  korpus, programmnoe obespechenie, razmetka teksta, programm’ sintaksicheskogo analiza, razmetka tela. ey words : Morhological information , syntactic information , corpus, software, text markup , syntactic  analyzsis programs , corpus marking. Morfologik axborot. Morfologik tahlil har bir so‘zning turkumi, shu bilan birga gapdagi vazifasini aniqlaydi; quyidagi morfologik kategoriyalar grammemasini ko‘rsatadi (mas., rus tilida jonli/jonsiz predmet, rod, kelishik, shaxs, son, nisbat, daraja, zamon, mayl, reprezentatsiya va h.) Sintaktik axborot. Gapning sintaktik belgisi, shajara daraxti bilan ifodalanadi, bu yerda har bir o‘q “hokim”dan “xizmatkor”ga yo‘naltiriladi; sintaktik munosabatlardan birining nomi bilan belgilanadi[1]. An’anaviy holda tarkibda sintaktik guruh hamda tarkibiy qismlar mavjud emas; aslida, shajara daraxtining har qanday “tupi” guruh deb hisoblanishi mumkin, uning tepasi “buta”ning tashqi aloqalarida uning vakili sifatida ishlaydi. Odatda, daraxt tuzilishidagi tugunlar soni jumladagi so‘zlar soniga teng. Bir tomondan, istisno holatini keltirib chiqaruvchi hodisalar ham mavjud: ayrim so‘z shakllari zanjiri leksik birlikni bildirganda, yuqoridagi qoidaga amal qilinmaydi, istisno holati yuzaga keladi. Bunday paytda, so‘z soniga qaraganda strukturada a’zo soni kamayadi. Boshqa tomondan, biror bir so‘z strukturaga “yopishtirilishi lozim” bo‘lsa yoki real matnda mavjud bo‘lmagan so‘z strukturaga kiritilishi kerak bo‘lsa ham, matndagi so‘z shakllari zanjir bilan bir xil bo‘lmasligi mumkin. (Otam vrach bo‘lib ishlardi, onam esa o‘qituvchi // Otam vrach bo‘lib ishlardi, onam esa o‘qituvchi BO‘LIB IShLARDI). Ta’kidlash kerakki, teglash jarayonida har qanday qayta ishlangan matnning leksik, sintaktik omonimiyasi to‘liq hal qilinadi. Agar buni avtomatik amalga oshirish imkoni bo‘lmasa (tizim tomonidan tuzilgan, izohlovchi yoki muharrirning fikriga ko‘ra, jumlada uchraydigan tuzilma mos kelmasa), albatta qo‘l bilan tuzatiladi. Teglovchi mutaxassis ham omonimiyani hal qila olmaydigan alohida holatlarda (masalan, qasddan qichqiriq bo‘lsa, ruh kabi ajoyib impuls mavjud), jumla bir nechta tuzatish bilan ta’minlanishi mumkin. Razmetkalangan matnlar korpusi biron bir tilning alohida lug‘ati bilan uzviy bog‘liq emasligi sababli, muallif so‘zning aniq leksik ma’nosini ma’lum tarzda, noaniqlik va leksik omonimiya bilan belgilash g‘oyasidan voz kechadi. Masalan, mexanik1 (shaxs oti) va mexanik2 (fizik holat) so‘zi, qalb1 (yurak) hamda qalb2 (noto‘g‘ri, egri) hech qanday indeks bilan ta’minlanmagan. Istisnolar ba’zi “ishchi” so‘zlar (xususan, old qo‘shimchalar)ga oid bo‘lib, ularning leksik ma’nosi korpus hujjatlarida tasvirlangan. Demak, matnga avtomatik ishlov berish annotatsiyalangan korpusdan foydalanish bilan aniqroq, xatosiz amalga oshirilishi oydinlashadi. Korpusning sintaktik teg(izoh)langan qismini sinab ko‘rishni boshlagan birinchi turdagi dastur – ETAP-3 tizimida rus tilidan ingliz tiliga tarjima qilinganida sintaktik noaniqlikni avtomatik hal qilish juda aniq natija bergan. Bundan kelib chiqadiki, matnni avtomatik qayta ishlash uchun lingvistik ta’minot va dasturiy tizim ishlab chiqilishi talab etiladi. Sintaktik tahlil algoritmi ishlab chiqilganda qo‘shimcha filtr yaratish ham talab etilgan: 2-4 a’zodan tashkil topgan ushbu vosita tahlil qilinayotgan gapni potensial tarmoqlar vositasida tahlildan o‘tkazadi. Bunday tajriba natijasini korpusning keyingi qismini qurishda ham qo‘llash mumkin, chunki yangi, avtomatik ravishda qurilgan gaplarni tahlil qilish yanada osonlashadi. O.I.Babina, N.Yu.Dyuminlarning ta’kidlashicha, har bir korpus razmetkasi asosida til nazariyasi yotadi, korpus asosidagi har qanday xulosa shu konsepsiyaga asoslangan holda xulosalanadi[2]. Har bir tadqiqotchi tilni modellashtirishda ob’ektiv/sub’ektiv sabablarga ko‘ra ma’lum nuqtai nazarni qo‘llab-quvvatlashi mumkin: masalan, til strukturasidan kelib chiqib, tilni formallashtirish nazariyasi ma’lum bir tilga qo‘llanadi, boshqa tilga to‘g‘ri kelmasligi mumkin; til modeli, ko‘pincha, hatto bir til doirasida ham, undagi xilma-xillik va ko‘pma’nolilikni aks ettirolmaydi. Tadqiqot maqsadidan kelib chiqqan holda, uncha katta bo‘lmagan tadqiqiy korpuslarni lingvistik annotatsiyalash (razmetkalash) chuqur sintaktik va semantik razmetkani qamrab olishi, shuningdek, faqatgina morfologik izoh (razmetka komponenti) bilan cheklanib qolishi ham mumkin. Katta korpuslar razmetkasida ifodalangan mufassal lingvistik axborot nihoyatda katta mehnatni talab qiladi. Tadqiqot maqsadi mehnat sarfini kamaytirishga qaratilganda, faqat zaruriy izohlar majmuini o‘rganish maqsadga muvofiq. Demak, bu nuqtai nazardan, korpus razmetkasini chuqurlashtirish o‘zini oqlamaydi, razmetkani soddalashtirish yo‘lidan borish hamda qidiruv natijasini aniqlashtirishga e’tibor qaratish kerak bo‘ladi. Minimallashtirish konsepsiyasiga asoslanadigan bo‘lsak, razmetka tizimiga faqat zaruriy axborotni kiritish maqsadga muvofiq bo‘ladi. Boshqa tomondan, korpusda qo‘llanuvchi vositaning boshqa tadqiqiy korpusda qo‘llash mumkin bo‘lgan avtomatik razmetka metodologiyasi sifatida foydalanish samarali natija beradi. Shu konsepsiyadan kelib chiqqan holda, O.I.Babina, N.Yu.Dyuminlar lingvistik razmetka vositalarini tuzish prinsiplari sifatida quyidagilarni sanab o‘tishadi[3]:
  1. Dasturiy ta’minot vositasi turli xil tizimlar o‘rtasidagi muvofiqlik muammosining oldini olishga yordam beradigan Unicode belgilar kodlash tizimini qo‘llab-quvvatlashi kerak, shu bilan kirill yoki lotin alifbosi bo‘lmagan alifbolar diakritikasi yoki alifbodan foydalanadigan tillarni tasvirlash imkoniyatini berishi kerak.
  2. Matnlar to‘plami hamda tegishli lingvistik ma’lumot yagona ma’lumotlar bazasida saqlanishi kerak, bunda matn korpusi bilan ishlash uchun turli xil funksiyalarni amalga oshiradigan tizimning dasturiy komponentidan standartlashtirilgan kirish ta’minlanadi.
  3. Korpusga ishlov berishga mo‘ljallangan ma’lum vositalar undan alohida bo‘lishi talab qilinadi. Shuningdek, tizimning umumiy universalligini ta’minlashiga erishi lozim. Ma’lumotning lingvistik bazadan boshqa tizimlarda ham takroriy qo‘llashga erishish mumkin.
  4. Tizimning har bir komponenti alohida lingvistik vazifa bajaradi, tizimning modul tashkilotini ta’minlaydi.
  5. Til materialining matn reprezentatsiyasi asosiy omil; barcha hosilaviy lingvistik ma’lumotlar (xususan, leksikon) matn korpusidagi pozitsiyalarga bog‘langan. Matn reprezentativligi prinsipi korpusdagi turli so‘zshakl, so‘z birikmasi leksik va grammatik kontekstiga erkin kirishga sharoit yaratadi.
  6. Leksik birlikni matnga biriktirish esa omonim so‘zshakl va so‘z birikmalariga yoziladigan turli mofologik teglar majmui ajratib olishga yo‘l ochadi.
Matnning avtomatik razmetka majmui dasturiy vositalari quyidagilardan tashkil topadi:
  • korpusni boshqarish moduli (CorpusManager);
  • avtomatik morfologik razmetka moduli (AutoPOSTagger);
  • morfologik razmetkaning avtomatik korrektori (Corrector);
  • avtomatik sintaktik razmetka moduli (SynTagger).
Aytish joizki, ushbu tizim matnga har tomonlama ishlov berishga mo‘ljallangan. Shuningdek, turli vazifani bajaruvchi vositalar alohida ishlab chiqiladi. SynTagger sintaktik tahlil dasturi xususida. O.I.Babina, N.Yu.Dyuminlar tomonidan taklif etilgan avtomatik sintaktik razmetka moduli (SynTagger) matnning sintaktik jihatdan bir-biriga bo‘ysunuvchi, tobe-hokim bo‘lak bo‘lib kelgan leksik birlikni qavslar bilan biriktirilgan qo‘shilma sifatida o‘z ichiga oladi (Qarang: -rasm). Foydalunuvchi sintaktik blokning boshi va oxirini belgilashi, uning tipi (otli birikma, fe’lli birikma, sonni ifodalovchi birikma va h.)ni aniqlashi tavsiya etiladi. SynTagger moduli morfologik razmetka mavjud bo‘lgan taqdirda avtomatik ravishda turli xildagi sintaktik struktura guruhlarini ajratishga imkon beradi. Turli funksional uslub yoki lahjaning o‘ziga xosligini ko‘rsatuvchi sintaktik tadqiqotlarda foydalanish mumkin bo‘ladi. Tavsiflanayotgan tizim maxsus qurilishga ega: undan bir vaqtning o‘zida bir necha tadqiqotchi foydalanishi mumkin (onlayn/oflayn formatda birdek ishlaydi). Lingvistik bazaning ma’lumotlar omboriga kiritilishi yoki undan foydalanish uchun ochiqlik tamoyili server so‘rovlarini qayta ishlash va so‘rovga javob berish uchun lingvistik ta’minot vazifasini bajaradi.               [1] И.М. Богуславский, Н.В. Григорьев, С.А. Григорьева, Л.Л. Иомдин, Л.Г. Крейдлин, Н.Е.Фрид. Разработка синтаксически размеченного корпуса русского языка // [2] Бабина О.И., Дюмин Н.Ю. Автоматизация лингвистической разметки корпуса текстов // [3] Ўша манба.