Korpus dilçiliyi

Vikipediya, azad ensiklopediya
Naviqasiyaya keç Axtarışa keç

Korpus dilçiliyi — mətn korpusunun inkişafı, yaradılması və istifadəsi ilə məşğul olan dilçiliyin bir sahəsidir. Termin 1960-cı illərdə korpusların yaradılması təcrübəsinin aparılması ilə meydana çıxmışdır və 1980-ci illərdə kompüter texnologiyasının inkişafı ilə əlaqədar istifadəyə başlanmışdır. Mətnlərin linqvistik və ya dil korpusu xüsusi linqvistik problemləri həll etmək üçün nəzərdə tutulmuş böyük, maşınla oxuna bilən, vahid, strukturlaşdırılmış, etiketlənmiş, filoloji cəhətdən səlahiyyətli dil məlumatlarının məcmusudur.[1] Müasir korpusun əsas xüsusiyyətləri maşınla oxuna bilən format, reprezentativlik və metalinqvistik məlumatın mövcudluğudur. Reprezentativlik xüsusi mətn seçimi prosedurundan istifadə etməklə əldə edilir. Linqvistik korpus müəyyən prinsiplərə uyğun toplanmış, müəyyən standarta uyğun olaraq işarələnmiş və ixtisaslaşmış axtarış sistemi ilə təmin edilmiş mətnlər toplusudur. Bəzən korpus ("birinci dərəcəli korpus") sadəcə olaraq hansısa ümumi xüsusiyyət (dil, janr, müəllif, mətnlərin yaranma dövrü) ilə birləşdirilən hər hansı mətnlər toplusu adlanır. Mətn korpusunun yaradılmasının mümkünlüyü aşağıdakılarla izah olunur:

  • linqvistik məlumatların real kontekstdə təqdim edilməsi;
  • kifayət qədər böyük məlumatların təqdim olunması (böyük həcmli korpusda);
  • müxtəlif linqvistik problemlərin həlli üçün bir dəfə yaradılmış korpusdan təkrar istifadənin mümkünlüyü, məsələn, qrafematik və leksiko-qrammatik mətn təhlilinin həyata keçirilməsi və s.[2]

Tarixi[redaktə | mənbəni redaktə et]

İlk böyük kompüter korpusu 1960-cı illərdə Braun Universitetində yaradılmış və hər biri 2 min sözdən ibarət 500 mətn fraqmentindən ibarət olan və 1961-ci ildə ABŞ-də ingilis dilində istifadəyə verilən Braun korpusu (BK ing. Brown Corpus, BC) hesab olunur. 1970-ci illərdə BK-na yaxın olan modeldə , mətnlər korpusu əsasında, 1 milyon söz həcmində və təxminən bərabər nisbətdə ictimai-siyasi mətnlər, bədii ədəbiyyatlardan və müxtəlif sahələrdən və dramaturgiyadan elmi və elmi-kütləvi mətnlər əsasında Zasorinanın rus dilinin tezlik lüğəti yaradıldı. 1980-ci illərdə İsveçin Uppsala Universitetində analoji model üzrə rus dilinin korpusu hazırlanıb. Kompüterlərin gücünün artması səbəbindən böyük həcmli mətnləri idarə edə bilən 1980-ci illərdə daha böyük korpuslar yaratmaq üçün dünya üzrə bir neçə cəhd edildi. Böyük Britaniyada belə layihələr Birminhem Universitetində İngilis Bankı (ing. Bank of English) və Britaniya Milli Korpusu (BNC) idi. SSRİ-də belə bir layihə A. P. Erşovun təşəbbüsü ilə yaradılan Rus Dilinin Maşın Fondu idi.

Hazırkı vəziyyəti[redaktə | mənbəni redaktə et]

Elektron formada çoxlu sayda mətnin mövcudluğu onlarla və yüz milyonlarla sözdən ibarət böyük həcmli korpus yaratmaq vəzifəsini əhəmiyyətli dərəcədə asanlaşdırdı, lakin problemləri aradan qaldırmadı: minlərlə mətnin toplanması, müəllif hüquqları ilə bağlı problemlərin aradan qaldırılması, bütün mətnlərin vahid formada yığılması, korpusun mövzu və janr üzrə balanslaşdırılması çox vaxt aparır.

Alman, polyak, çex, sloven, fin, müasir yunan, çin, yapon, bolqar və digər dillərin korpusları mövcuddur (və ya hazırlanır). Rusiya Elmlər Akademiyasında yaradılmış rus dilinin milli korpusu hazırda 500 milyondan çox söz ehtiva edir[3].

Azərbaycan Dilinin Milli Korpusunun leksikoqrafiya altkorpusunun yaradılması istiqamətində atılmış addımlardan biri "Azərbaycan dilinin lüğət tərkibinin inkişafı, dilin normalarına əməl olunmasının ictimai monitorinqi və dilin verilənlər korpusunun hazırlanması üzrə inteqrasiya olunmuş elektron sistemin və lüğətin yaradılması" adlı layihə sayıla bilər. Bu layihə AMEA Nəsimi adına Dilçilik İnstitutunun baş elmi işçisi, fil.ü.e.d., prof. Məsud Mahmudovun rəhbərliyi ilə Azərbaycan Respublikasının Prezidenti yanında Elmin İnkişafı Fondunun 2015-ci ilin əsasqrant müsabiqəsinə təqdim edilmiş və bu çərçivədə elmi-tədqiqat proqramlarının(EİF-KETPL-2015–1(25) qalibi olmuşdur. Layihə əsasında Azərbaycan dilinin elektron lüğətlər korpusu hazırlanmışdır[4]

Həmçinin bax[redaktə | mənbəni redaktə et]

İstinadlar[redaktə | mənbəni redaktə et]

  1. Захаров, Богданова, 2013
  2. Довнар П.Ю., Воронцов А.В. Лингвистический процессор китайского языка. Особенности разработки (PDF) // Международный конгресс по информатике: информационные системы и технологии: материалы международного научного конгресса 31 окт. – 3 нояб. 2011 г. (rus). Минск: БГУ: БГУ. 2011. 2018-10-24 tarixində arxivləşdirilib (PDF).
  3. "Статистика. Национальный корпус русского языка". www.ruscorpora.ru. 2019-12-29 tarixində arxivləşdirilib. İstifadə tarixi: 2019-12-27.
  4. Məsud Mahmudov. Türk dillərinin milli korpusu. Bakı: Elm və təhsil. səh. 392. 2023-10-06 tarixində arxivləşdirilib. İstifadə tarixi: 2023-10-05.

Ədəbiyyatlar[redaktə | mənbəni redaktə et]

  1. Захаров В. П., Богданова С. Ю. Корпусная лингвистика: Учебник для студентов направления "Лингвистика". — 2-е изд, перераб. и дополн. — СПб.: СПбГУ. РИО. Филологический факультет., 2013. — 148 с.
  2. Məsud Mahmudov. Türk dillərinin milli korpusu. Bakı: Elm və təhsil. səh. 392.

Xarici keçidlər[redaktə | mənbəni redaktə et]