De flesta som använder Google translate lite då och då har förmodligen vant sig vid att man oftast inte får perfekta resultat. Anledningen är att naturliga språk inte är regelbundna och därför inte heller går att tolka felfritt med datorer som behöver följa just regler. Men det är en annan historia.
Oftast när jag ser att Google translate översätter fel så tänker jag inte så mycket på det, men ända sedan i höstas när jag läste en kurs i maskinöversättning har jag då och då börjat fundera på vad det egentligen är som går snett. Idag upptäckte jag det här exemplet:
Google translate, precis som nästan alla maskinöversättningssystem idag, bygger på statistiska metoder. Det innebär i korthet att man har jättestora parallellkorpusar (samlingar av manuellt översatta texter) utifrån vilka man kan ta fram den mest sannolika översättningen av en specifik mening som inte finns i korpusen, men vars enskilda ord kanske gör det.
I det här fallet, ”Han er en dansk skuespiller”, tycker alltså Google att det är mest sannolikt att skuespiller betyder actress. Det är ju inte fel i sig, men om man ser till kontexten i just den här meningen är det tydligt att det handlar om en manlig skådespelare. Jag testade att byta ut dansk mot norsk och svensk, men det blev samma sak ändå. När jag däremot provade med ”han er en god skuespiller” blev det rätt.
Jag tänker inte göra någon djuplodande analys, men det är ju lite lustigt att algoritmen tror att det handlar om en kvinnlig skådespelare ända tills vi påpekar att hen är en bra skådespelare

