Skip to main content

Korpus nima? (Korpus tilshunosligi)


Korpus katta hajmli va tizimga solingan matnlar to‘plamidan iborat til manbasi hisoblanadi. Korpus tilshunosligida ular ma’lum bir til doirasida yoki tilning ma’lum bo‘limida statistik tahlillarni amalga oshirish, qarashlarni, tildagi hodisalar yoki nazariy qoidalarni tekshirish uchun foydalaniladi.

Korpus bir til yoki bir necha tildagi matnli ma’lumotlardan iborat bo‘lishi mumkin. Korpus deganda, odatda, matnli korpus tushunchasi anglanadi, lekin hozirgi kunda korpuslar faqatgina matnlardan iborat bo‘lmay qoldi. Shuning uchun korpus so‘zi o‘rniga matnli korpus tushunchasini ishlatamiz. Tilga oid tadqiqotlarni olib borishni yanada samaraliroq qilish uchun korpuslar annotatsiyalanadi (Bu haqida keyingi bildirgilarda to‘liqroq shaklda yozamiz). Masalan, korpusni annotatsiyalashning bir turi bu so‘zlarni teglash hisoblanadi (POS-tagging). Bunda so‘zning turkumi va shu turkum kategoriyalari asosida teglab chiqish tushuniladi. Ya’ni kitoblarga so‘zi quyidagi ma’lumotlarni tashiydi: ot, ko‘plik, jo‘nalish kelishigi. Ayni mana shu ma’lumotlar teglar orqali so‘zga biriktirib chiqiladi. Annotatsiyalashning yana bir ko‘rinishi o‘zaklash (lemmatizatsiya) bo‘lib, u so‘zning tayanch shaklini ko‘rsatib berish hisoblanadi. Masalan, kitoblar, kitobning, kitobga so‘zi uchta shaklda turibdi lekin ularning asosi bir xil – kitob. Ana shu lemmatizatsiya (o‘zaklash) deb ataladi. Bu yerda asos hamda o‘zak tushunchalarini adashtirib yubormaslik kerak. Masalan, bostirma so‘zi bostir+ma shaklida yasalagan, lekin uni o‘zaklashda bostir so‘zini lemma deb qaray olmaymiz, bostirma yagona so‘z hisoblanadi. Agar, bostirmada, bostirmaga, bostirmaning so‘zlarini o‘zaklash kerak bo‘lsa unda bostirma so‘zini olishimiz to‘g‘ri bo‘ladi. Sodda qilib aytganda, lemma so‘zning shakl yasovchi qo‘shimchalari tushirib qoldirildigan qismi hisoblanadi.

Korpus nima uchun kerakligini bilib oldik. Tilshunoslikka oid turli tadqiqotlarni samarali amalga oshirish uchun. Lekin bu qanday qilinadi? Masalan, sizga 2019-yilda yozilgan matnlar ichidan ot turkumiga mansub, ko‘plik qo‘shimchasini olgan, rasmiy uslubda qo‘llangan so‘zlar va ularning chastotasi bo‘yicha saralangan ro‘yxati kerak. Korpusning qidiruv sohasiga ayni shu ma’lumotlarni kiritasiz va korpus dasturi sizga bir necha soniyalar ichida bu so‘rovga mos keluvchi ma’lumotlarni ko‘rsatib beradi. Bu korpus bilan amalga oshirish mumkin bo‘lgan eng oddiy statistik tahlil ishi hisoblanadi.

Korpusda tilning hamma sohasiga oid ma’lumotlar saqlangani, doimiy qayta ishlab turish imkoniyatiga egaligi, aniq berilgan so‘rovlarga aniq javoblarni juda tez muddatda olish imkoni mavjudligi bilan tilshunos va boshqa turli soha vakillarining tadqiqot ishlarini tezlatib, sifatini oshirib beradi.

Korpusdan lug‘atshunoslikda ham keng foydalansa bo‘ladi. Masalan, bizga ikki xil so‘z turkumida kela oladigan so‘zni lug‘atga kiritish topshirildi, qoidaga ko‘ra lug‘atga eng ko‘p ishlatiladigan shakl birinchi yozilishi kerak. Biz shu so‘zni qidiruv sohasiga kiritamiz va turkumlar bo‘yicha saralaymiz. Qarabsizki, aniq manba asosida aniq xulosa kelib chiqadi. Hech qanday ichki intuitsiyalarga berilishga hojat qolmaydi.

Korpusning yana bir qulayligi unda so‘zlarning bir-biri bilan bog‘lanib kela olish qobiliyatini ham kuzatish mumkin. Buning uchun korpusga biror so‘zni kiritib shu so‘z oldidan keladigan 3ta, ortidan keladigan 3ta so‘zni ham qo‘shib chiqarishi kerakligi haqida so‘rovni yuboramiz. Biz kiritgan so‘zimizning oldidan va ortidan keladigan 3tadan so‘zni chastota bo‘yicha saralangan ko‘rinishini olamiz.

Sodda qilib aytganda, korpus tilshunoslikning istalgan sohasida tadqiqotlarni olib borishning sifatli va samarali bo‘lishiga yordam beradi.

Shokirjon Tursunov (
Shokir Yo‘ldosh) tayyorladi.


Comments

Popular posts from this blog

Ona tilida oʻqib tushunish malakasini rivojlantirish yuzasidan tajribaviy tadqiq

Maqola Global ta’lim va milliy metodika. Respublika ilmiy-amaliy anjumani materiallari dan olindi. Muallif: Feruza Sharopova Bugungi kunda bilim berish va uni sinovdan oʻtkazishning xalqaro me’yorlari oʻrganilib, ularni Respublikamizdagi ta’lim jarayoniga joriy etish rejalashtirilmoqda. Dunyoda ta’lim sifati, saviyasi va darajasini aniqlab beruvchi PISA (Oʻquvchilarni ta’limdagi yutuqlarini baholash xalqaro dasturi), PIRLS (Matnni oʻqish va tushunish darajasini aniqlovchi xalqaro tadqiqot), TIMSS (Maktabda matematika va aniq fanlar sifatini tadqiq qiluvchi xalqaro monitoring) kabi bir qator xalqaro dasturlar mavjud boʻlib, ular rivojlangan davlatlardagi ta’lim sifatini yanada oshirishdagi mezon sifatida keng qoʻllanilib kelinmoqda. [1] PISA   -   oʻquvchilarni ta’lim sohasidagi yutuqlarini baholash boʻyicha xalqaro dastur boʻlib, undagi test jahon davlatlaridagi maktab oʻquvchilarining bilimi va ularni amaliyotda qoʻllay olish mahoratini baholaydi. [2] Dasturnin...

Eshitib tushunishda “pastdan yuqoriga” va “yuqoridan pastga” yondashuvlari

Ushbu maqola David Nunanning “Til oʻqitish metodologiyasi” (Languagae teaching methodology) kitobidan erkin tarjima qilingan. Tarjimon: Shokir Tursunov Ogʻzaki nutqni eshitib tushunish jarayoni qanday kechadi? Eshitilgan nutqdan mazmunni samarali chiqarib oladigan odamlar bunga qanday erishadilar? Oddiy qaralsa, ogʻzaki nutqni tushunish jarayoni nutq oqimini tarkibiy qismlarga – tovushlarga, fonemalarga ajratib olishdan boshlanadi, keyingi bosqich esa boʻgʻin, soʻz, soʻz birikmasi, sintagma, gap, matn ketma-ketligida davom etadi. Bu qarash nutqni eshitib tushunishga “pastdan yuqoriga” (bottom-up) yondashuvi hisoblanadi, koʻrinib turibdiki ushbu yondashuv yetarli darajada mukammal emas, uni osongina rad etish mumkin. Matn Ular shunday betartib joylanganki, hammasini tartibga keltirish uchun ancha vaqt kerak. Keyin ularni saralash kerak boʻladi. Menimcha, rangiga qarab saralagan ma’qul. Rangiga qarab saralab olgach yana bir ichki saralash oʻtkazish va mavsumiy koʻrs...

MOBIL ILOVALAR ORQALI TIL O‘RGANISH VA O‘RGATISH: ILOVALAR TASNIFI

KIRISH Jozibali texnologiyalar sirasiga kiruvchi mobil ilovalar bugungi kunga kelib ta’limda o‘ziga xos inqilob yasagani hech kimga sir emas. So‘nggi yillarda bunday ilovalar ta’lim jarayoniga chuqur kirib bordi. Smartfon va turli mobil gadjetlar taraqqiyoti an’anaviy ta’lim jarayonini o‘zgartirib yubordi. Bu o‘zgarishlar til ta’limida ham yaqqol ko‘zga tashlanmoqda. Mobil qurilmalardan foydalanish til ta’limi sohasiga oid ko‘plab ilovalarning yaratilishiga olib keldi. Hozirgi kunda foydalanuvchilar internet orqali ana shunday ilovalarni bemalol yuklab olishlari va mustaqil ravishda tillarni o‘rganishlari mumkin. Ushbu maqola til o‘rgatuvchi mobil ilovalar tasnifiga bag‘ishlangan bo‘lib, o‘rganuvchi va o‘rgatuvchilar o‘zlari uchun qaysi ilova qulay va foydali ekanligini aniqlab olishlariga yordam beradi. Til o‘rganuvchilar uchun qaysi ilovaning qulayligi va ko‘proq foydali ekanligini aniqlashga qaratilgan izlanishlar deyarli amalga oshirilmagan. Bu esa ko‘plab ilovalardan qay bir...