Қазақ тілінің ұлттық корпусы: тіл үйренуге жаңа мүмкіндіктер

Қазақ тілінің ұлттық корпусында 250 миллионнан астам қолданыстағы сөздің лингвистикалық паспорты жасалған.

«AMANAT» партиясы Орталық аппаратында SocioExpertClub  алаңында Қоғамдық саясат институтының ұйымдастыруымен «Цифрлық дәуірдегі қазақ тіл білімі: дамуы, нәтижелері мен болашағы» тақырыбында кездесу өтті,  – деп хабарлайды Aikyn.kz 

Кездеу барысында Ахмет Байтұрсынұлы атындағы Тіл білімі институты директоры Анар Фазылжан заманынан қалыспай цифрландыру кезеңінде қазақ лингвистикасының қалай дамып жатқаны, қазақ тіліне байланысты жүргізіліп жатқан зерттеулерімен бөлісті.

 – Бүгінде тіліміз әлемдік тілдер ішінде сөйлермен саны көп алғашқы жүздіктің қатарына еніп отыр. Мемлекеттік тіл мәртебесін алғаннан бері қоғамдық өмірдің барлық саласында қолданылып келеді. Қазақша мәтіндер жазба да, ауызша да формада күн санап көбейіп келеді. Ендігі жерде оларды цифрландыру тілімізді реалды кеңістікпен қатар виртуалды кеңістікте дамытуға мүмкіндік береді. Болашақ үшін бұл өте маңызды. Әрі бұл қазіргі күні туындап отырған кейбір сын-қатердің алдын алуға да септігін тигізеді 

 Мәселен, кейінгі кезде қазақ тілінің ұрпақтан ұрпаққа берілуі әлсірегенін аңғартатын жайттар бар. Бұрын ата-әжеміздің ауызша әңгімесі арқылытіліміздің тамырынан сусындайтын ұрпақ бүгінде қолтелефонмен уақытын көп өткізеді. Бұрынғы қазақтың көбі кітап оқуды әдетке алған, ауылда тұрған соң, ауыл ақсақалдарының әңгімесін тыңдап өссе, қалаға үдере көшкен қазіргі қазақтың ұрпағы әлеужелінің, көбіне өзге тілді ақпараттың тұтынушысы болып отыр. Сол себептен де боларбір отбасында ата-апасы қазақша, әке-шешесі орысша, балалары ағылшынша сөйлейтін отбасылар пайда болды. Тағы бір мәселе – тілдің калькалануы. Аударма түрінде жазылған мәтіндер көбейіп кетті. Олардың қуат аз. Бір сөзбен айтқанда, тірі мәтіндер, тілдің қуаты азаймау керек. Көп ғалым тілімізді цифрлық ресурсы аз тілдер қатарына жатқызып келеді. Бұл да еңсеру керек мәселе. Міне, осы себепті де, қазақ тіл білімінде виртуалды тілдік кеңістік құруға бағытталған корпустық тіл білімі, ауқымды тілдік модель құру, нейролингвистикалық бағдарламалау сияқты салаларды дамыту қолға алынды, әсіресе корпустық тіл білімі бойынша талай зерттеулер жасалып, ауқымды жұмыс атқарылып жатыр,   –  деді Анар Фазылжан.

Оның айтуынша, Ахмет Байтұрсынұлының ізімен келе жатқан Тіл білімі институтының зерттеушілері қазақ тілінің ұлттық корпусын жасап, тілді модельдеумен айналысып жатыр.

– Мұнда ауқымды тілдік модель, нейролингвистикалық бағдарламау бойынша диссертациялық тақырыптар беріп, зерттеу жүргізіліп жатыр. Әлеуметтік тіл білімі ғана емес, психолингвистика, нейролингвистика салаларында ізденіс көбейді. Сонымен бірге дәстүрлі сөзсаптаммен генерацияланған сөзді, табиғи тіл мен жасанды тілді, әдеби тіл мен слэнг, реалды қарым-қатынастілі мен виртуалды қарым-қатынас тілін, жазба тіл мен ауызша тілді салыстыра зерттеудің қажеттілігі артып келеді. 

Қазақ тілінің ұлттық корпусы кез келген тілсүйер, тіл тұтынушы үшін қолғабыс құрал бола алатын қазақ сөзінің цифрық қазынасы, сонымен бірге тілтанушының микроскопы. Бұрын тілтанушы бір тілдік құбылысты «шынымен ертең дамитын дүние ме, біреудің ғана аузындағы сөз бе?» дегенді дәлелдеу үшін қаншама қағаз кітап бетін ақтарып, көше аралап ауызша сөзін жинаса, қазір осы базаға кіріп-ақ қорытынды шығара алады. Корпус тіл үйренуге де қажет. Сол сияқты қазақ тіліндегі сөздің мән-мағынасын,  күллі контексін, астарындағы ақпаратын білгісі келген кез келген ізденушіге тапсырмас құрал, ең бастысы, ұлттық корпус қазақтілді жасанды интеллектінің тиімді жұмысын қамтамасыз ете алатын негіз, – дейді  Ахмет Байтұрсынұлы атындағы Тіл білімі институты директоры Анар Фазылжан.

Қазіргі кезде Қазақ тілінің ұлттық корпусы әрбір бірілігіне алуан түрлі белгіленім,  аннотация, яғниәрбір сөздің лингвистикалық паспорты берілген 200 миллионнан астам сөзқолданыстан тұратын ақылды электрондық база, Қазір онда 22 түрлі ішкорпус бар. Тіпті, генерацияланған қазақша мәтіндердің де ішкорпусы жасалды. 

Іс-шараға Сенат пен Мәжіліс депутаттары, отандық ғалымдар, тіл білімі саласының мамандары, жоғары оқу орындарының өкілдері, жас зерттеушілер мен сала сарапшылары қатысты.