Matndagi soʻzlarni toʻgʻri tushunish nafaqat soʻz boyligi balki leksikonda kodlangan soʻzlar ma’noviy guruhlarining chuqurligi va sifatiga ham bogʻliq. Bundan tashqari soʻzning ma’nosi uning sintaktik pozitsiyasiga hamda kontekstdagi semantikasiga ham aloqador boʻladi [1] . Oʻqib tushunish malakasi yaxshi rivojlangan oʻqirmanlar matndagi notanish soʻzlarning ma’nosini yaxshi anglaydilar. Bunga sabab ularning doimiy ravishda matn bilan ishlashlari, koʻproq kitob, gazeta oʻqishlari bilan bogʻliq. Daymok Texas shtatidagi maktablarning 11 – 12 yoshli oʻquvchilari oʻrtasida oʻqib tushunishni baholovchi test oʻtkazadi [2] . Oʻtkazilgan test natijasi shuni koʻrsatadiki koʻproq kitob, gazeta, jurnal oʻqiydigan, ota-onasidan ertak eshitib turadigan oʻquvchilarning oʻqib tushunish malakasi boshqalarnikidan yaxshiroq rivojlangan edi. Daymok soʻrovnoma ham oʻtkazishga qaror qiladi. Soʻrovnomada 2ta savol oʻrtaga tashlangan edi: Siz kitob oʻqishni tanlaysizmi yoki televizor koʻrishnimi? Siz koʻchad...
Korpus katta hajmli va tizimga solingan matnlar to‘plamidan iborat til manbasi hisoblanadi. Korpus tilshunosligida ular ma’lum bir til doirasida yoki tilning ma’lum bo‘limida statistik tahlillarni amalga oshirish, qarashlarni, tildagi hodisalar yoki nazariy qoidalarni tekshirish uchun foydalaniladi. Korpus bir til yoki bir necha tildagi matnli ma’lumotlardan iborat bo‘lishi mumkin. Korpus deganda, odatda, matnli korpus tushunchasi anglanadi, lekin hozirgi kunda korpuslar faqatgina matnlardan iborat bo‘lmay qoldi. Shuning uchun korpus so‘zi o‘rniga matnli korpus tushunchasini ishlatamiz. Tilga oid tadqiqotlarni olib borishni yanada samaraliroq qilish uchun korpuslar annotatsiyalanadi (Bu haqida keyingi bildirgilarda to‘liqroq shaklda yozamiz). Masalan, korpusni annotatsiyalashning bir turi bu so‘zlarni teglash hisoblanadi (POS-tagging). Bunda so‘zning turkumi va shu turkum kategoriyalari asosida teglab chiqish tushuniladi. Ya’ni kitoblarga so‘zi quyidagi ma’lumotlar...