Thursday, January 15, 2015

Prečítal som: The Power Of Habit, Charles Duhigg

Konečne sa mi podarilo prečítať aj túto knihu. Medzi rozčítanými sa nachádzala asi od novembra, kedy som sa dostal do polovice.

Kniha sa zaoberá o tom ako vyzerajú naše zvyky (habit, tj. nie kultúrne zvyky), aký majú na náš vplyv a čo vďaka nim kto dokázal. Príklady sa mi veľmi páčili, to najlepšie na knihe je, že vlastne nie je prvoplánovo motivačná. Až v prílohe sa trochu rieši ako by mala vyzerať naša práca so zvykmi, ale ktoré zvyky sú vhodné a ktoré menej vôbec nerieši.

Asi najlepšia časť pre mňa bola tá, ktorá hovorila o trénerovi amerického futbalu a zmene tímu, tak aby pracovala automaticky (na základe zvyku). Zaujímavá perlička bola o gambleroch, ktorí pri takmer-výhre prežívajú podobné pocity akoby vyhrali a preto vydržia hrať dlhšie, o viac peňazí, ...

Sunday, January 4, 2015

Rešerš: Detekcia textov zo strojového prekladu

Bigger is better.

Pri získavaní najväčšieho (a ?najlepšieho) korpusu potrebujeme stiahnuť veľké množstvo textov z webu. Vzhľadom na ich povahu je potrebné takéto dáta vyčistiť od jasného bordelu, iných jazykov a odstrániť duplicity. V takýchto dátach však bude stále dosť textu, ktorý vznikol strojovým prekladom.

V týchto dát bude ešte dosť text, ktorý strojový preklad.

A takýto text chceme odstrániť, takže to je naša motivácia. Najskôr som objavil v czTenTen12 preklad wikipedie (Ludvík dodávka Beethoven), ale všetko ostatné je potrebné robiť automaticky.

Samozrejme, že sme problém najskôr riešili a až teraz hľadáme, kto to ako robil :)

Kurokawa et al.: "Automatic detection of translated text and its impact on machine translation", MT Summit, 2009

Z článku je pre nás dôležitá najmä jeho prvá časť, ktorá sa venuje detekcii prekladaného textu. Jedná sa o texty z Kanadského parlamentu (Canadian Hansard, 1996-2007), ktoré sú bilinguálne (anglicky/francúzsky), je ich veľa 4,5 milióna viet a 85K "odstavcov". Pre každý z textov máme naviac informáciu o tom, či sa jedná o preklad, alebo originál. Na rozdiel od nášho problému, tak pracujeme s kvalitnými textami na oboch stranách.

Klasifikácia prebiehala pomocou SVM na n-gramoch {1,..,5} a to s použitím word/lemma/POS, alebo len POS resp. mixed (významové slová sa nahradia POS, zbytok zostáva). Pri tejto klasifikácie sa podarilo získať ~90% na odstavcoch a ~77% na vetách. Pri využití POS/mixed to kleslo pri odstavcoch na ~85%. 

Pre nás nepoužiteľný, ale inak pekný výsledok sa dosiahol pri preklade, kde pri trénovacích dátach z jedného jazyka stačilo asi 1/5 textu na dosiahnutie rovnakého skóre. 

Somers et al.: "Detecting inappropriate use of free online machine-translation by language students", EAMT, 2006

Strojový preklad sa dá používať aj na písanie domácich úloh. Na úrovni A dostačuje a v Anglicku skončíte so známkou C. Študenti dostali za úlohu preložiť jeden text poctivo a druhý pomocou prekladača (Babelfish) a následne rýchlo opraviť najväčšie chyby. Texty boli vcelku krátke (ale už sa nájsť nedajú). 

Na porovnanie sa používali slová použité len raz (hapax legomena, singleton), dvakrát (dis legomena), n-gramy a aj BLEU, NIST. To bola výhoda toho, že máme k dispozícii aspoň nejaký správny preklad.

Aharoni et al.: "Automatic detection of Machine Translated text ...", ?aclweb?, ?2013?

Hlavnou myšlienkou tohto článku je, že presnosť detekcie strojového prekladu koreluje s kvalitou prekladu. A teda sa dá použiť na meranie kvality prekladu. Na rozdiel od NIST/BLEU nie je potrebné mať referenčný preklad, čo je dosť veľká výhoda.

Samotný test bol založený na preklade 20K viet pomocou Systranu, Google Translate a piatich komerčných prekladačoch. Binárne klasifikátory a SVM, nič špeciálne. Celé to funguje pekne až na frázové prekladače, ktoré rieši pridanie syntaktických klasifikátorov (parser Berkeley).

Carter, Inkpen: "Searching for poor quality machine translated text: ...", časopis Advances in Artificial Intelligence, 2012

Úplne rovnaká úloha ako máme my, akurát opäť na anglicky a francúzštine (oba smery). Bolo použité SVM a klasifikátory (unigramy, priemerná dĺžka tokenu a pomer POS/token). Rozdiel oproti iným článkom je použitie troch rozličných sád textov. Najkvalitnejšou je časť Canadian Hansard, nasledovaná vládnymi webmi a nakoniec štátnych webov regiónu Ontario. Webové dáta môžu obsahovať aj zopár dát, ktoré sú zle klasifikované - rozdiel oproti Hansard.

Dosiahnuté čísla (voči strojovému prekladu pomocou Bing) sú pre Hansard perfektné. F-score sa pre jednotlivé kategórie pohybuje medzi 0,966 a 0,980. Model natrénovaný na Hansarde dáva pre vládne weby F-score prevažne nad 0,9 s dvoma výnimkami. Tá hlavná je rozpoznávanie anglického prekladu na webe č.5 - F-score 0,298. Pre weby z Ontaria sú F-score 0,907 pre text písaný anglicky človekom a 0,755 pre francúzske. V tomto prípade, žiaden strojový preklad nebol klasifikovaný ako pravdivý.


Čísla naznačujú pretrénovanosť modelu, ale ten nebol nijako upravovaný. A klasifikátory sú len tie vyššie spomenuté.

Arase, Zhou: "Machine translation detection from monolingual web-text", ACL, 2013 [*asi najlepší článok]

Aj v paralelných korpus sa nachádzajú strojové preklady (až 15% japonských textov v jednom experimente). Navrhovaná metóda spočíva vo vyhľadávaní gappy-phrase a následne phrase-salad, ktorý je špecifický pre súčasný štatistický preklad. Jedná sa obvykle o frázy, ktoré obsahujú diery: "not only X but". SMT zvládnu úspešne preložiť prvú časť, ale s tou druhou majú problémy.

Dám si nielen veľké chladené pivo ale aj hranolky. 
I'll not only large but also chilled beer fries

Dám si nielen pivo ale aj hranolky.
I'll not only beer but also fries.
Na príklade je vidno, že sa mi to nepodarilo úplne nájsť. Vidno, že Google sa dokáže naučiť frázu, ale aplikuje ju dosť zvláštne. Ak by tam chýbalo 'but also' tak je to frázový šalát. Pri automatickej extrakcii takýchto fráz nájdeme aj také, ktoré pre človeka nedávajú zmysel: "after X afther the", "no X not".

Pri vyhodnocovaní sa snažíme nájsť práve tie porušenia, šalát. Pri pekných vetách dosiahli presnosť 95,8% (ale japončina), ľudia sa zhodli na 88,2%. Na webových stránkach bez preprocessingu to je 80,6% na vete.

Koppel, Ordan: "Translationese and its dialects", ACL, 2011

Mimo náš problém? Rozpoznávanie zdrojového jazyka prekladu. Využitých bolo päť jazykov z Europarl (IT, FR, ES, DE, FI a cieľovej angličtiny). Rozpoznávanie bolo po chunkoch, ktoré mali ~2K slov.  Rozpoznávanie bolo úspešné na 92,7% čo sa mi viac než dosť, keďže ja by som to nezvládol :)

Pre ďalšie veci v rámci prekladu medzi jazykmi je dobré pozrieť translationese, ktoré sú práve tie zvlášnosti pri preklade a sú študované prekladateľmi a lingvistami.