Nitqin tanınması

Vikipediya, azad ensiklopediya
Naviqasiyaya keçin Axtarışa keçin
Subvokal nitqin tanınması tədqiqatlarında istifadə olunan elektrodlar.

Nitqin tanınması — diktorun verdiyi komandaları və verilənləri qəbul etmək məqsədilə kompüterin tələffüz olunan sözləri başa düşmək bacarığı.[1] Şifahi dilin kompüterlər tərəfindən tanınmasına və mətnə çevrilməsinə imkan verən, metodologiya və texnologiyaları inkişaf etdirən informatika və hesablama dilçiliyinin fənlərarası alt sahəsidir. O, həmçinin avtomatik nitqin tanınması (ASR), kompüterin nitqi tanınması və ya nitqdən mətnə (STT) kimi tanınır. Eyni zamanda kompüter elmləri, dilçilik və kompüter mühəndisliyi sahələrində bilik və tədqiqatları özündə birləşdirir. Əks proses nitqin sintezi adlanır.

Bəzi nitq tanıma sistemləri fərdi spikerin mətni və ya lüğəti sistemə oxuduğu "təlim" tələb edir. Sistem şəxsin spesifik səsini təhlil edir və alınan nəticədən həmin şəxsin nitqinin tanınmasını dəqiqləşdirmək üçün istifadə edir. Təlimdən istifadə etməyən sistemlər "müstəqil" sistemlər adlanır.[2]

Nitqin tanınması proqramlarına səsli zəng, zənglərin yönləndirilməsi, avtomatik ev cihazların idarə edilməsi, açar sözlərin axtarışı, sadə məlumatların daxil edilməsi, strukturlaşdırılmış sənədlərin hazırlanması, spiker xüsusiyyətlərinin müəyyən edilməsi[3] və nitqdən mətnə emal kimi səs istifadəçi interfeysləri daxildir.

Səsin tanınması[4][5][6] və ya danışanın identifikasiyası[7][8][9] termini danışanın dediklərini deyil, onun özünü müəyyən etməyə aiddir. Spikerin tanınması konkret şəxsin səsi ilə öyrədilmiş sistemlərdə nitqin tərcüməsi tapşırığını sadələşdirə bilər və ya təhlükəsizlik prosesinin bir hissəsi kimi spikerin kimliyini təsdiqləmək və ya yoxlamaq üçün istifadə edilə bilər.

Texnologiya nöqteyi-nəzərindən nitqin tanınması bir neçə əsas yenilik dalğası ilə uzun bir tarixə malikdir. Bu yaxınlarda bu sahə dərin öyrənməböyük verilənlərdə baş verən irəliləyişlərdən faydalanmışdır. İrəliləyişlər təkcə bu sahədə dərc olunan akademik məqalələrin artması ilə deyil, daha da əhəmiyyətlisi dünya sənayesində nitqin tanınması sistemlərinin layihələndirilməsi və tətbiqində müxtəlif dərin öyrənmə üsullarının qəbulu ilə sübut olunur.

Tarixi[redaktə | mənbəni redaktə et]

İnkişafın əsas sahələri bunlar idi: lüğətin ölçüsü, danışanın müstəqilliyi və emal sürəti.

1970-ci ildən əvvəl[redaktə | mənbəni redaktə et]

  • 1952 — üç Bell Labs tədqiqatçısı, Stiven Balaşek,[10] R. Biddulf və K. H. Davis, tək spikerlərin rəqəmlərinin tanınması üçün "Audrey"[11] adlı bir sistem qurdular. Onların sistemi formantları hər bir nitqin güc spektrində yerləşdirirdi.[12]
  • 1960 — Qunnar Fant nitq istehsalının mənbə-filtr modelini işləyib hazırladı və nəşr etdi.
  • 1962 — IBM 1962-ci il Ümumdünya Sərgisində 16 sözdən ibarət "Shoebox" maşınının nitq tanıma qabiliyyətini nümayiş etdirdi.[13]
  • 1966 — Nitq kodlaşdırma üsulu olan xətti proqnozlaşdırıcı kodlaşdırma (LPC) ilk dəfə Naqoya Universitetindən Fumitada İtakura və Nippon Telegraph and Telephone (NTT) şirkətindən Şuzo Saito tərəfindən nitqin tanınması üzərində işləyərkən təklif edilmişdir.[14]
  • 1969 — Con Pirs nitqin tanınması tədqiqatını tənqid edən açıq məktub yazdıqda Bell Labs-da maliyyə bir neçə il boyunca tükənmiş vəziyyətdə qaldı.[15] Bu vəziyyət Pirs təqaüdə çıxana və Ceyms Flanaqan vəzifəyə gələnə qədər davam etdi.

Rac Reddi 1960-cı illərin sonlarında Stenford Universitetində aspirant kimi davamlı nitqin tanınmasını üzərinə götürən ilk şəxs idi. Əvvəlki sistemlər istifadəçilərdən hər sözdən sonra fasilə verməyi tələb edirdi. Reddinin sistemi şahmat oynamaq üçün şifahi əmrlər verirdi.[16]

Təxminən bu vaxtlarda sovet tədqiqatçıları dinamik vaxt dəyişikliyi (DVD) alqoritmini icad etdilər və ondan 200 sözdən ibarət lüğət üzərində işləyə bilən tanıma sistem yaratmaq üçün istifadə etdilər.[17] DVD nitqi qısa kadrlara, 10 ms seqmentlərə bölərək və hər bir çərçivəni vahid şəkildə emal edərək işləyirdi. DVD sonrakı alqoritmlərlə əvəz edilsə də, texnika davam edirdi. Bu dövrdə spikerin müstəqilliyinin təmin edilməsi həll olunmamış qaldı.

İstinadlar[redaktə | mənbəni redaktə et]

  1. İsmayıl Calallı. "speech recognition" // Rasim Əliquliyev (redaktor ). İnformatika terminlərinin izahlı lüğəti (az.). Bakı: "İnformasiya texnologiyaları" / "Bakı" nəşriyyatı. 2017. səh. 701. ISBN 978-9952-434-82-8. 6 sentyabr 2023 tarixində arxivləşdirilib (PDF) (#archive_missing_url).
  2. "Speaker Independent Connected Speech Recognition- Fifth Generation Computer Corporation". Fifthgen.com. 11 noyabr 2013 tarixində arxivləşdirilib. İstifadə tarixi: 15 iyun 2013.
  3. P. Nguyen. Automatic classification of speaker characteristics // International Conference on Communications and Electronics 2010. 2010. 147–152. doi:10.1109/ICCE.2010.5670700. ISBN 978-1-4244-7055-6.
  4. "British English definition of voice recognition". Macmillan Publishers Limited. 16 sentyabr 2011 tarixində arxivləşdirilib. İstifadə tarixi: 21 fevral 2012.
  5. "voice recognition, definition of". WebFinance, Inc. 3 dekabr 2011 tarixində arxivləşdirilib. İstifadə tarixi: 21 fevral 2012.
  6. "The Mailbag LG #114". Linuxgazette.net. 19 fevral 2013 tarixində arxivləşdirilib. İstifadə tarixi: 15 iyun 2013.
  7. Sarangi, Susanta; Sahidullah, Md; Saha, Goutam. "Optimization of data-driven filterbank for automatic speaker verification". Digital Signal Processing. 104. September 2020: 102795. arXiv:2007.10729. doi:10.1016/j.dsp.2020.102795.
  8. Reynolds, Douglas; Rose, Richard. "Robust text-independent speaker identification using Gaussian mixture speaker models" (PDF). IEEE Transactions on Speech and Audio Processing. 3 (1). yanvar 1995: 72–83. doi:10.1109/89.365379. ISSN 1063-6676. OCLC 26108901. 8 mart 2014 tarixində arxivləşdirilib (PDF). İstifadə tarixi: 21 fevral 2014.
  9. "Speaker Identification (WhisperID)". Microsoft Research. Microsoft. 25 fevral 2014 tarixində arxivləşdirilib. İstifadə tarixi: 21 fevral 2014. When you speak to someone, they don't just recognize what you say: they recognize who you are. WhisperID will let computers do that, too, figuring out who you are by the way you sound.
  10. "Obituaries: Stephen Balashek". The Star-Ledger. 22 July 2012. 4 April 2019 tarixində arxivləşdirilib. İstifadə tarixi: 22 January 2024.
  11. "IBM-Shoebox-front.jpg". androidauthority.net. 9 August 2018 tarixində arxivləşdirilib. İstifadə tarixi: 4 April 2019.
  12. Juang, B. H.; Rabiner, Lawrence R. "Automatic speech recognition–a brief history of the technology development" (PDF). səh. 6. 17 avqust 2014 tarixində arxivləşdirilib (PDF). İstifadə tarixi: 17 yanvar 2015.
  13. Melanie Pinola. "Speech Recognition Through the Decades: How We Ended Up With Siri". PC World. 2 November 2011. 3 November 2018 tarixində arxivləşdirilib. İstifadə tarixi: 22 October 2018.
  14. Gray, Robert M. "A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol" (PDF). Found. Trends Signal Process. 3 (4). 2010: 203–303. doi:10.1561/2000000036. ISSN 1932-8346. 2022-10-09 tarixində arxivləşdirilib (PDF). İstifadə tarixi: 2024-01-22.
  15. John R. Pierce. "Whither speech recognition?". Journal of the Acoustical Society of America. 46 (48). 1969: 1049–1051. Bibcode:1969ASAJ...46.1049P. doi:10.1121/1.1911801.
  16. Nils J. Nilsson. "Raj Reddy - A.M. Turing Award Winner". ACM. 2023-06-01 tarixində arxivləşdirilib. İstifadə tarixi: 22 yanvar 2024.
  17. Benesty, Jacob; Sondhi, M. M.; Huang, Yiteng. Springer Handbook of Speech Processing. Springer Science & Business Media. 2008. ISBN 978-3540491255.

Əlavə ədəbiyyat[redaktə | mənbəni redaktə et]

Xarici keçidlər[redaktə | mənbəni redaktə et]