Doménová adaptácia prekladača

V článku Nový prekladač Lingea sme vám predstavili nové verzie našich prekladačov založených na neurónových sieťach. Okrem iného sme sa zmienili aj o problematike prípravy prekladačov „na mieru“.

Ako teda vyzerá príprava takéhoto prekladača v praxi a aké výsledky môžeme očakávať?

Proces prispôsobenia všeobecného prekladača sa nazýva doménová adaptácia. Zvyčajne postupujeme tak, že prekladový model najskôr trénujeme na všeobecných dátach pre daný jazykový pár. Medzi dáta tohto typu patria napríklad preložené novinové články, manuály k rôznych aplikáciám, články z Wikipédie, prejavy z Európskeho parlamentu, titulky k filmom a seriálom a pod. Takto pripravený základný prekladač môžete vyskúšať napríklad na https://prekladac.lingea.sk/.

V ďalšom kroku je potrebné získať trénovacie dáta z danej domény – doména môže byť pomerne všeobecná, napríklad zdravie, cestovný ruch alebo internetový predaj služieb, ale aj špecifickejšia, napríklad používateľské príručky k práčkam. Ideálne sú paralelné dáta, teda také, pri ktorých máme k dispozícii zdrojové vety i preklad. V niektorých prípadoch stačí k efektívnej adaptácii aj text, ktorý je dostupný len v cieľovom jazyku. Vždy je ale potrebné veľké množstvo týchto dát – minimálne desaťtisíce, spravidla však stotisíce viet. Tieto dáta môžeme použiť jednak na trénovanie, jednak na výber ďalších vhodných prekladov zo všeobecných korpusov na základe podobnosti textu.

Keď máme pripravený trénovací korpus, môžeme konečne uskutočniť vlastnú doménovú adaptáciu, ktorá spočíva v dotrénovaní všeobecného modelu použitím vybraných doménových dát. Na malej časti dát, ktorú sme nepoužili, môžeme následne sledovať kvalitu prekladu a na základe toho robiť zmeny v procese prípravy dát a trénovania modulu, až kým nedosiahneme uspokojivý výsledok.

Je zrejmé, že takto vytvorený špeciálny prekladač dokáže prekladateľom ušetriť veľa času a skrátiť proces lokalizácie textov. Súčasne ale musíme zdôrazniť, že samotná príprava vyladeného prekladača trvá niekoľko dní či týždňov a vyplatí sa preto až pri preklade väčšieho množstva textu v rozsahu stoviek či tisícok normostrán.

Prekladače Lingea pre ďalšie slovanské jazyky

Neurónové prekladače fungujú výborne, ak majú k dispozícii dostatok cvičných dát...

viac tu

Doménová adaptácia prekladača

V článku Nový prekladač Lingea sme vám predstavili nové verzie našich prekladačov založených na neurónových sieťach. Okrem iného sme sa zmienili aj o problematike prípravy prekladačov „na mieru“.

viac tu


Novinky z poslednej doby nájdete v archíve. ...