Korpus katta hajmli va
tizimga solingan matnlar to‘plamidan iborat til manbasi hisoblanadi. Korpus
tilshunosligida ular ma’lum bir til doirasida yoki tilning ma’lum bo‘limida statistik
tahlillarni amalga oshirish, qarashlarni, tildagi hodisalar yoki nazariy
qoidalarni tekshirish uchun foydalaniladi.
Korpus bir til yoki
bir necha tildagi matnli ma’lumotlardan iborat bo‘lishi mumkin. Korpus deganda,
odatda, matnli korpus tushunchasi anglanadi, lekin hozirgi kunda korpuslar
faqatgina matnlardan iborat bo‘lmay qoldi. Shuning uchun korpus so‘zi o‘rniga
matnli korpus tushunchasini ishlatamiz. Tilga oid tadqiqotlarni olib borishni yanada samaraliroq qilish uchun korpuslar annotatsiyalanadi (Bu haqida keyingi
bildirgilarda to‘liqroq shaklda yozamiz). Masalan, korpusni annotatsiyalashning
bir turi bu so‘zlarni teglash hisoblanadi (POS-tagging). Bunda so‘zning turkumi
va shu turkum kategoriyalari asosida teglab chiqish tushuniladi. Ya’ni
kitoblarga so‘zi quyidagi ma’lumotlarni tashiydi: ot, ko‘plik, jo‘nalish
kelishigi. Ayni mana shu ma’lumotlar teglar orqali so‘zga biriktirib chiqiladi.
Annotatsiyalashning yana bir ko‘rinishi o‘zaklash (lemmatizatsiya) bo‘lib, u so‘zning
tayanch shaklini ko‘rsatib berish hisoblanadi. Masalan, kitoblar, kitobning,
kitobga so‘zi uchta shaklda turibdi lekin ularning asosi bir xil – kitob. Ana
shu lemmatizatsiya (o‘zaklash) deb ataladi. Bu yerda asos hamda o‘zak
tushunchalarini adashtirib yubormaslik kerak. Masalan, bostirma so‘zi bostir+ma
shaklida yasalagan, lekin uni o‘zaklashda bostir so‘zini lemma deb qaray
olmaymiz, bostirma yagona so‘z hisoblanadi. Agar, bostirmada, bostirmaga,
bostirmaning so‘zlarini o‘zaklash kerak bo‘lsa unda bostirma so‘zini olishimiz
to‘g‘ri bo‘ladi. Sodda qilib aytganda, lemma so‘zning shakl yasovchi qo‘shimchalari
tushirib qoldirildigan qismi hisoblanadi.
Korpus
nima uchun kerakligini bilib oldik. Tilshunoslikka oid turli tadqiqotlarni
samarali amalga oshirish uchun. Lekin bu qanday qilinadi? Masalan, sizga 2019-yilda
yozilgan matnlar ichidan ot turkumiga mansub, ko‘plik qo‘shimchasini olgan,
rasmiy uslubda qo‘llangan so‘zlar va ularning chastotasi bo‘yicha saralangan ro‘yxati
kerak. Korpusning qidiruv sohasiga ayni shu ma’lumotlarni kiritasiz va korpus
dasturi sizga bir necha soniyalar ichida bu so‘rovga mos keluvchi ma’lumotlarni
ko‘rsatib beradi. Bu korpus bilan amalga oshirish mumkin bo‘lgan eng oddiy statistik tahlil ishi hisoblanadi.
Korpusda
tilning hamma sohasiga oid ma’lumotlar saqlangani, doimiy qayta ishlab turish
imkoniyatiga egaligi, aniq berilgan so‘rovlarga aniq javoblarni juda tez
muddatda olish imkoni mavjudligi bilan tilshunos va boshqa turli soha
vakillarining tadqiqot ishlarini tezlatib, sifatini oshirib beradi.
Korpusdan
lug‘atshunoslikda ham keng foydalansa bo‘ladi. Masalan, bizga ikki xil so‘z
turkumida kela oladigan so‘zni lug‘atga kiritish topshirildi, qoidaga ko‘ra lug‘atga
eng ko‘p ishlatiladigan shakl birinchi yozilishi kerak. Biz shu so‘zni qidiruv
sohasiga kiritamiz va turkumlar bo‘yicha saralaymiz. Qarabsizki, aniq manba
asosida aniq xulosa kelib chiqadi. Hech qanday ichki intuitsiyalarga berilishga
hojat qolmaydi.
Korpusning
yana bir qulayligi unda so‘zlarning bir-biri bilan bog‘lanib kela olish
qobiliyatini ham kuzatish mumkin. Buning uchun korpusga biror so‘zni kiritib shu so‘z
oldidan keladigan 3ta, ortidan keladigan 3ta so‘zni ham qo‘shib chiqarishi
kerakligi haqida so‘rovni yuboramiz. Biz kiritgan so‘zimizning oldidan va
ortidan keladigan 3tadan so‘zni chastota bo‘yicha saralangan ko‘rinishini
olamiz.
Sodda
qilib aytganda, korpus tilshunoslikning istalgan sohasida tadqiqotlarni olib
borishning sifatli va samarali bo‘lishiga yordam beradi.
Shokirjon Tursunov (Shokir Yo‘ldosh) tayyorladi.
Shokirjon Tursunov (Shokir Yo‘ldosh) tayyorladi.
Comments
Post a Comment