Skip to main content

Posts

Showing posts from June, 2020

Korpus nima? (Korpus tilshunosligi)

Korpus katta hajmli va tizimga solingan matnlar to‘plamidan iborat til manbasi hisoblanadi. Korpus tilshunosligida ular ma’lum bir til doirasida yoki tilning ma’lum bo‘limida statistik tahlillarni amalga oshirish, qarashlarni, tildagi hodisalar yoki nazariy qoidalarni tekshirish uchun foydalaniladi. Korpus bir til yoki bir necha tildagi matnli ma’lumotlardan iborat bo‘lishi mumkin. Korpus deganda, odatda, matnli korpus tushunchasi anglanadi, lekin hozirgi kunda korpuslar faqatgina matnlardan iborat bo‘lmay qoldi. Shuning uchun korpus so‘zi o‘rniga matnli korpus tushunchasini ishlatamiz. Tilga oid tadqiqotlarni olib borishni yanada samaraliroq qilish uchun korpuslar annotatsiyalanadi (Bu haqida keyingi bildirgilarda to‘liqroq shaklda yozamiz). Masalan, korpusni annotatsiyalashning bir turi bu so‘zlarni teglash hisoblanadi (POS-tagging). Bunda so‘zning turkumi va shu turkum kategoriyalari asosida teglab chiqish tushuniladi. Ya’ni kitoblarga so‘zi quyidagi ma’lumotlar