2010 m. vasario 25 d., ketvirtadienis

Apie statistinį mašininį vertimą

SMV vertimai generuojami statistinių modelių, kurių parametrai gaunami iš dvikalbių ir vienakalbių tekstynų analizės, pagrindu. Statistinio modelio generavimo procesas vadinamas mokymu. Jo metu, siekiant sugeneruoti vertimo modelį, paprastai analizuojami dideli lygiagrečių sakinių porų dviem kalbomis kiekiai (dvikalbis tekstynas), taip pat, norint sugeneruoti kalbos modelį, analizuojama vertimo kalba (vienakalbis tekstynas). Vertimo modelis – tai tam tikras statistinis modelis, parodantis, kaip šaltinio kalba verčiama į vertimo kalbą. Vertimo modelis gali veikti žodžių, frazių ir sudėtingesnių struktūrų (pvz., sintaksės medžių) srityje ir paprastai yra atsakingas už vertimo tikslumą. Kalbos modelis atspindi žinias apie vertimo kalbą, jos sakinio ir frazės struktūrą ir paprastai yra atsakingas už vertimo sklandumą.

Moderniausią SMV principą, vadinamuosius frazių modelius, riboja mažų teksto dalių (frazių) atvaizdavimas be aiškaus lingvistinės – morfologinės, sintaksinės ar semantinės – informacijos panaudojimo. Buvo įrodyta, kad tokia papildoma informacija, integruota į išankstinį ar baigiamąjį apdorojimą, yra vertinga.

Tačiau glaudesnis lingvistinės informacijos integravimas į vertimo modelį reikalingas dėl dviejų priežasčių:

1. Vertimo modeliai, kurie veikia pagal bendresnius atvaizdavimus, pvz., lemas, o ne išorines žodžių formas, gali naudotis gausesniais statistiniais duomenimis ir taip įveikti duomenų skurdumo problemas, kurias sukelia riboti mokymo duomenys.

2. Daugelis vertimo aspektų geriausiai gali būti paaiškinami morfologiniu, sintaksiniu ar semantiniu lygmeniu. Turint tokią informaciją, šiuos aspektus galima tiesiogiai modeliuoti vertimo modelyje. Pavyzdžiui: pertvarkymas sakinio lygmeniu dažniausiai atliekamas pagal bendruosius sintaksės principus, vietiniai derinimo suvaržymai išryškėja morfologijoje ir t. t.

„Tilde IT“ ištyrė galimas vertimo platformas ir nusprendė naudoti atvirąją statistinio mašininio vertimo (SMV) platformą Moses (Koehn et al., 2007). Moses yra statistinio mašininio vertimo sistema, leidžianti automatiškai išmokyti ir taip sukurti bet kurios kalbų poros vertimo modelius. Tereikia tik išverstų tekstų rinkinio (lygiagretaus tekstyno). „Moses“ būdingos šios savybės: 1) spindulio paieška: efektyvus paieškos algoritmas, greitai randantis labiausiai tikėtiną vertimą didėjančiame variantų skaičiuje; 2) fraziškumas: SMV modernumas leidžia versti trumpas teksto dalis; 3) skaidymas: žodžiai gali būti pateikiami išskaidyti (išorinė forma, lema, kalbos dalis, morfologija, žodžių klasės ir t. t.). Semantiniai duomenys bus įtraukti į vertimo POC sistemą kaip papildomi šaltinio ir vertimo kalbos veiksniai.

„Tilde IT“ nagrinėjo tekstynų klausimą. Pagrindinė SMV problema yra negausūs lygiagretieji dvikalbiai šaltiniai tokiomis šaltiniais neaprūpintomis kalbomis, kaip lietuvių, kadangi kuo daugiau duomenų turima sistemų mokymui, tuo geriau veikia SMV. Tekstyno tyrimo specifikacija buvo sukurta apibrėžus patį tekstyną: tekstynas yra atrinktų ir sujungtų tekstų rinkinys, kuris gali būti naudojamas sistemai kurti; dvikalbis lygiagretusis tekstynas yra tekstų, kurių kiekvienas yra išverstas į vieną ne originalo kalbą, rinkinys; lietuvių – anglų lygiagretusis tekstynas yra tekstų, kurių kiekvienas yra išverstas iš lietuvių į anglų kalbą (ir atvirkščiai: iš anglų į lietuvių kalbą), rinkinys; SMT mokymui reikalingas tekstynas yra rašytinių tekstų elektroniniu formatu rinkinys. Atliekant preliminarų tyrimą buvo manoma, kad informacija apie esamus ir galimus lygiagrečiuosius dviejų kalbų šaltinius bus renkama internete. Projekto komandos atliktas lygiagrečių lietuviškų ir angliškų duomenų internete tyrimas patvirtino pirminę prielaidą: lygiagrečių duomenų, kuriuos būtų galima naudoti tyrimui ir apdorojimui, yra per mažai. Tačiau tam tikri prieinami šaltiniai buvo nustatyti ir surinkti. Po tolesnio apdorojimo jie naudojami vertimo POC pradinio mokymo procese. Rezultatas – vertimo platforma pritaikyta lietuvių kalbai. Siekiant pritaikyti vertimo platformą ontologijos integracijai (ar sąveikai), buvo tiriamas skaidymu pagrįsto SMV modelis.

Komentarų nėra:

Rašyti komentarą