Көптілді терминологиялық базалар және цифрлы аударманың бүгіні мен болашағы

Көптілді терминологиялық базалар және цифрлы аударманың  бүгіні мен болашағы
Қазіргі жаһандану дәуірі мен цифрландыру жағдайында аудармаға қойылатын талаптар жаңа мәнге ие. Әлемдегі мәдени, экономикалық, техникалық, ақпараттық және технологиялық жүйелердің интеграциясының қарқынды дамуымен байланысты аударманың жаңа түрі – цифрлы аударма қарыштап даму үстінде.

Компьютерлік лингвистика мен мәтінді автоматты өңдеу тарихы 1950 жылдардағы Джорджтаун экспериментімен тығыз байланысты. XX ғасырдың 30 жылдары ғалымдар G.Artsrouni мен П.Троянский машиналық аударма жұмыстарын бастады. Нәтижесінде 60-тан астам орыс тіліндегі сөйлемдер ағылшын тіліне сәтті, толық әрі автоматты түрде аударылды. Осы орайда машиналық аудармада қостілді сөздіктердің қажеттіліктері байқала басталды. 1964 жылы машиналық аударма мәселелерімен айналысатын ALPAC (Automatic Language Processing Advisory Committee) Тілдерді автоматты өңдеу бойынша консультативтік комитеті құрылды [1, 2].

1950‑жылдардың соңына қарай математик, лингвист әрі философ Y.Bar-Hillel машиналық аудармадағы сөздіктердің маңызы туралы «Қаламның (Ағыл. pen) қағаз жазудағы қызметін қаламның сабы емес, ішіндегі сиясы орындайтындығы сияқты, әмбебап энциклопедиясыз машиналық аударманың мәселелері ешқашан шешілмейді» деген болатын [3]. Мұндағы «әмбебап энциклопедия» деп тұрғаны тек қана екі тілді сөздік немесе ақпараттар жиынтығы ғана емес, сонымен қатар аудармаға қажетті сөздер, терминдер, сөздік мақалалар, синонимдер, антонимдер, т.б.

Қазақстанда компьютерлік аударма мәселелерінің алғышарттарын 1970-жылдары математик ғалымдар Р.Пиотровский мен К.Бектаев қолға алды. Отандық ғалымдардың ішінде ақпараттық жүйелер үшін көптілді электрондық тезаурус құрастыру мәселелерімен М.Самбетбаева [4], А.Ерімбетова [5], А.Нугуманова [6] айналысты. Соңғы жылдары қазақ тілінің, сондай-ақ басқа да түркі тілдерінің мәтіндерін өңдеудің морфологиялық және синтаксистік мәселелерімен ақпараттық жүйе мамандары айналысуда. Ғалымдар Digital Library онтологиясына негізделген тезаурус мәселелері мен машиналық аудармаға қажетті Lingua Parser компьютерлік бағдарламаларын лингвистика мен аударматануға бейімдеумен айналысады. Машиналық аударма жасаудың алғышарттары жасалуда, статистикалық және нейрондық желілер негізіндегі ресурстарды біріктіретін гибридті бағдарламаны У.Тукеевтің басшылығымен Д.Рахимова жасады. Аталған бағдарлама ағылшын-қазақ машиналық аудармасын атқарады [7]. Әл-Фараби атындағы ҚазҰУ қазақ тілінің параллельді корпусын құрумен Ж.Жұманов, А.Мадиева, Д.Рахимова айналысады. Л.Н.Гумилев атындағы Еуразия ұлттық университетінде Л.Жеткенбай қазақ-түрік тілдері арасындағы машиналық аударма модельдері мен әдістерін жасаумен айналысады.

Цифрлы аударма үшін мәтінді автоматты түрде өңдеу жүйесіне мәліметтерді енгізудің маңызды түрі морфологиялық сөздіктер болып табылады. Тезаурустар немесе басқа да семантикалық желілер жоғары сұранысқа ие. Мұндай дереккөздердің арасындағы ең танымалы – WordNet тезаурусы. Бұл тезаурус мағыналық қатынастар деп аталатын сөздерді байланыстыратын ресурс, яғни синонимдер, гиперонимдер, гипонимдер және т.б. метадеректерді машиналық аударма, мәтін құру, мәтінді жіктеу тапсырмаларында автоматты түрде пайдаланады. РҒА СБ Новосібір мемлекеттік университеті, Есептеу технологиялары институты мен Л.Н.Гумилев атындағы Еуразия ұлттық университеті арасында 2017-2021 жылдар арасында жүргізілген біріккен жоба аясында құрастырылған салалық терминдердің көптілді басқарылмалы тезаурусы интероперабельді. Тезаурустың интероперабельділік сипаты ақпаратты іздеу (Information Retrieval) кезінде WordNet тезаурусының метадеректерімен ақпарат алмасу мүмкіндігін береді.

Көптілді электрондық тезаурустардың машиналық аудармадағы маңызы ақпараттық технологияның дамуымен бірге өзгеріп, дами түсуде. Амара-коша (Amarakosha) мен Роже тезаурусынан (Roger’s Thesaurus) бастау алған тезаурустардың эволюциялық дамуы жаңа кезеңге өтті деуге болады [8].

Қазіргі таңдағы машиналық аудармада қолданылатын электрондық тезаурустарға [грек. Thēsaurós, қазына, қор] мынадай анықтамалар беріледі.

Thesaurus.com сөздігі: 1.Тезаурус – сөздердің немесе пән саласы туралы ақпараттардың немесе арнайы ұғымдардың жиынтығы, сонымен қатар тезаурус – сөздер мен олардың синонимдік қатарының жиынтығы. 2.Тезаурус – сілтемелер мен ақпаратты іздеуге арналған құжаттар топтамасын ұйымдастыруда қолданылатын тақырыптардың немесе дескрипторлардың тізімі [9].

Dictionary.com сөздігі: 1.Онлайн Thesaurus.com тәрізді синонимдер мен антонимдер сөздігі. 2.Кез келген сөздік, энциклопедия немесе толық анықтамалық. 3.Репозиторий. Компьютерге байланысты мағынада: 1.Компьютерде сақталған, тақырыптардың толық тізімінен тұратын, тиісті терминдерді қолдану арқылы ақпарат алуға болатын индекс. 2.Мәтін өңдеу мақсатында пайдалану үшін жадыда сақталған синонимдер мен антонимдер сөздігі [10].

ЮНЕСКО тезаурусы: ЮНЕСКО тезаурусы – білім беру, мәдениеттану, жаратылыстану ғылымдары, әлеуметтік-гуманитарлық ғылымдар, байланыс және ақпарат тәрізді пән салаларындағы құжаттар мен жарияланымдарды іздеу мақсатында қолданылатын басқарылмалы және жүйеленген терминдер тізімі. Тезаурус үнемі байытылып, жаңартылып отырады, тезаурустың көпсалалы терминологиясы ЮНЕСКО бағдарламалары мен қызметінің эволюциясын көрсетеді [11].

Digital Library тезаурусы: Тезаурус – индекстеудің басқарылмалы тілі, ұғымдар арасындағы априорлық қатынасты нақты орнату үшін формалды ұйымдастырылған сөздік [12]. Тезаурус – терминдердің, синонимдер мен антонимдердің мағыналық байланысын көрсететін жалпы немесе арнайы лексика қорының түрі [12].

C.Ryan тезауруста барлық терминдер бір-бірімен байланысты жүйе болып табылатындығын айтады. Бұл пайдаланушыларға ақпаратты тез тауып қана қоймай, мағыналық, эквиваленттілік, иерархиялық және ассоциативті қатынастарды түсінуге көмектеседі деп есептейді [13]. Мысалы, Роже тезаурусында (Roget’s Thesaurus of English Words) ағылшын тілінің сөздері мен сөз тіркестері ұқсас ұғымдар мен идеялар бойынша түзілген.

Цифрлы аударма тұрғысынан қарастырғанда, тезаурус – ақпараттық іздеу (Information Retrieval) кезінде әр пән саласы бойынша сөздер мен терминдерге толыққанды, түпкілікті ақпаратты бірнеше тілде бірдей беретін, машиналық аударма кезінде компьютерлік бағдарламалар тани алатын терминдердің интероперабельді жүйесі деп есептейміз [14].

Сонымен қатар цифрлы аударма орындаудағы тезаурустардың ішіндегі ең танымалдары болып мына тезаурустар табылады: Роже тезаурусы (Roget’s Thesaurus of English Words), AGROVOC тезаурусы (AGRIS – International System for Agricultural Science and Technology), AGCOM тезаурусы (ACDC – Agricultural Communications Documentation Center), EuroVOC тезаурусы, EuroWordNet French тезаурусы, RussNet тезаурусы, РуТез тезаурусы, SNOMED тезаурусы, WordNet тезаурусы, ЮНЕСКО тезаурусы.

Цифрлы аударма бағдарламаларын даярлау үшін әр түрлі тілдердегі бірдей мәтіндерден тұратын параллель корпустар қолданылады. Әдетте, корпустар бірнеше ондаған жылдар бойы жинақталған түбегейлі еңбекті талап ететін жоба. Қазақстанда Қазақ тілінің Алматы корпусымен [http://web-corpora.net/KazakhCorpus/search/?interface_language=ru.] қатар Қазақ тілі ұлттық корпусының кіші корпусы [https://qazcorpora.kz/] жобасы басталды. Аталған корпустардағы контент негізінен көркем әдебиет, периодикалық және публицистикалық шығармалар, ғылыми еңбектер негізінде жасалған.

Цифрлы аударманың негізгі қызмет түрлері бірнеше бөліктерден тұрады:

  • мәтіннің грамматикасы мен сөздердің жазылуын автоматты түрде тексеруге көмектесетін дербес немесе кіріктірілген редакторлар;
  • салалық терминологияны басқаруды қамтамасыз ететін бағдарламалық жасақтама, кестелер, мәтіндік редакторлар (Мысалы, MultiTerm, Termex және т.б.);
  • пән салаларының мәтіндерін аударуды басқаратын бағдарламалық жасақтамалар;
  • бұрын аударылған мәтіндердің немесе сөйлемдердің үлгілері сақталатын аударма жадысын (TM, Translation Memory) қолданатын автоматтандырылған аударма құралдары (CAT). Мұндай бағдарламаларға Across, AfterScan, Catnip, DejaVu, MemoQ, MemSource, MetaTexis, MultiTerm, OmegaT, SmartCat, StarTransit, Trados, Transit, Wordfast, Wordfisher, XTM, т.б. жатады;
  • бір немесе бірнеше тілдердің қолданысындағы құжаттардың деректер базасы, яғни корпусы. Корпустардың көмегімен пән саласындағы аудармаларға қатысты ақпараттар өңделеді.

Цифрлы аударма кезінде қажетті сөздер мен терминдерді компьютер автоматты түрде өзі орындайтын болса, автоматтандырылған аударма кезінде аудармашы түрлі бағдарламалық жасақтамалар арқылы қосымша ақпаратты іздеумен жеке айналысады. Жоғарыда аталған бағдарламаларға қоса басқа да ақпараттық реппозиторийлар мен параллель мәтіндер сақталған бағдарламалық жасақтамалар арқылы жеткіліксіз деңгейде қамтылған лексикалық бірліктерге балама іздеу мүмкіндігіне ие. Мұндай бағдарламаларға мыналарды жатқызамыз: Abbreviations.com, EC Speech Repository, Eurotermbank, Glosbe, Glossary Assistant, Interpreter Training Resources, IATE, InterpretBank’s Glossary Bank, Lookup Terminology Management, Mutltitran, Reverso Context, Terminus, TERMplus, Termincom.kz, Sozdik.kz.

Цифрландыру процесі әлемде қанатын кең жайғанымен, қазақ тілінің мазмұнын ағылшын және орыс тілдерінде қатар үштілді бағытта аударып бір компьютерлік платформаға орналастыру әлі еркін қолданыста болмай отыр. Осы көптілді сөздіктерді, анықтамалықтар мен репозиторийларды зерттей келе, Қазақстанның цифрландыру жағдайындағы машиналық және автоматтандырылған аударма жасауға келтіретін басты қиыншылықты анықтадық.

Аталған дереккөздердің барлығы дерлік көптілді, алайда біздің үштілді Қазақстандағы қазақ, ағылшын және орыс тілдерінде бірдей аударма жасау талаптарына жауап бермейді. Бұл үштілді немесе көптілді басқарылмалы сөздік пен тезаурусты құрастыру өзектілігін жоймаған мәселе екендігін көрсетеді.

Сонымен тезаурус деп кез келген білім саласы туралы немесе сала пәніне қатысты сөздер, терминдер мен сөз тіркестерінің толық жүйеленген мәліметтер жиынтығын атаймыз. Тезаурус жүйеленген терминдер арасындағы семантикалық байланыстарды көрсетеді. Тезаурус өз ішіне терминдердің түрлері, байланыстары, топтарымен қоса, түрлі сөздіктерді енгізе алады: анықтамалық сөздік, көптілді сөздік, синонимдер сөздігі, антонимдер сөздігі, омонимдер сөздігі, түсіндірме сөздік, идеографиялық сөздік, т.б. Тезауруста терминдер семантикалық және функционалдық жағынан нақты анықталып, олардың лингвистикалық баламалары бекітіліп, иерархиялық жағынан жіктеледі.

Тезаурус құрастыруға қатысты мәселелерді зерттеу – компьютерлік лингвистика, аударматану, салалық терминология және ақпараттық технологиялар тоғысында туындаған жаңа пәнаралық зерттеу болып табылады. РҒА СБ Новосібір мемлекеттік университетінің Есептеу технологиялары институты мен Л.Н. Гумилев атындағы ЕҰУ арасындағы 2017-2020 жылдар аясында жүргізілген біріккен жоба аясында жасалған Digital Library тезаурусы қазақ тілді контент орналастыруға бағытталған. Аталған көптілді тезаурус пән саласының терминдерін ғана емес, сондай‑ақ сөздік мақалаларды да қамтитын бірегей веб-платформа болып табылады. Бұл дегенміз жаңа буын электрондық тезаурустарын машиналық аудармада тиімді пайдаланудың болашағын шешудегі бірден-бір ұтымды бағыт.

 

Пайдаланылған әдебиеттер тізімі:

  1. Pierce , Carroll J. et al. Language and Machines: Computers in Translation and Linguistics: ALPAC report. – Washington: National Academy of Sciences, 1966. – 138 p.
  2. Wilson T. Review of: Poibeau T. Machine translation // http://informationr.net/ir/reviews/revs615.html.
  3. Yehoshua B.H. Report on the state of Machine Translation 1959; 1960 // http://www.mt-archive.info/Bar-Hillel-1960-App3.pdf.
  4. Самбетбаева М.А. Ғылыми-білім беру қызметін қолдауға арналған ақпараттық жүйе үшін ақпараттық технологиялар бойынша қазақ тілі морфологиясын ескере отырып көптілді тезаурус жасау: 6D070300: док. PhD. ... дис. – Астана, 2016. – 169 б.
  5. Ерімбетова А. Байланыстар грамматикасын зерттеу, мәтіндер релеванттылығын және тақырыбын анықтау: 6D070300: док. PhD ... дис. – Астана, 2016. – 116 с.
  6. НугумановаА. Предметно-ориентированные модели и методы распределенного поиска, обработки и анализа текстовой информации в сети Интернет: дис. … док. PhD: 6D070300. – Алматы, 2014. – 135 с.
  7. Рахимова Д.Р. Исследование моделей и методов семантики машинного перевода с русского языка на казахский язык: дис. ... док. PhD: 6D060200: – Алматы, 2014. – 135 с.
  8. Bayekeyeva A., Information Technologies Applied in Compiling Multilingual Thesaurus // Мәдениет пен тілдердің өзара қатынасындағы аудармашылық қызмет: халық. конф. матер. – Астана: Л.Н. Гумилев атындағы ЕҰУ, 2018. – С. 325-331.
  9. com сөздігі // www.thesaurus.com.
  10. com сөздігі // www.dictionary.com.
  11. ЮНЕСКО тезаурусы // vocabularies.unesco.org.
  12. Digital Library тезаурусы // http://db4.sbras.ru/elbib/data/show_page.phtml?13+2320.
  13. C. Thesaurus construction guidelines: An introduction to thesauri and guidelines on their construction. Dublin: Royal Irish Academy and National Library of Ireland, 2014. ISSN: 2009-6461. DOI: 10.3318/DRI.2014.1.
  14. Баекеева А.Т. Қазақ тіліндегі тау‑кен терминологиясының қалыптасуы және ағылшын, орыс тілдеріне аударылу ерекшеліктері: 6D020700: док. PhD ... дис. – Нұр-Сұлтан, 2021. – 159 б.