Google maakt veel werk van direct vertalen

Direct vertalen bij Skype
Via Skype kun je elk in een andere taal met elkaar converseren. De taalparen zijn beperkt.

Google Translate is tegenwoordig, in ieder geval voor het Nederlands, vrij aardig, maar het is een vrij simpel systeem dat afhankelijk is van vertaalde woordzinparen (al schijnt het tegenwoordig iets ingewikkelder te zijn dan dat). Dat is problematisch bij talen die door relatief weinig mensen gebruikt worden of waarvan, om wat voor een reden dan ook, weinig geschreven teksten zijn. Nu hebben Google-onderzoekers, die zich onder meer bezighouden met kunstmatige intelligentie, een systeem ontwikkeld dat gebruik maakt van neurale netwerken en die de gesproken taal direct omzetten in een tweede taal (al of niet gesproken).

Automatisch vertalen van gesproken teksten werkt meestal via het eerst omzetten van spraak in tekst, waarna die tekst wordt vertaald. Een fout in de spraakherkenning kan dan ‘dodelijk’ zijn voor de vertaling. Onderzoekers van Google Brain hebben nu die tussenstap er tussenuit gesloopt. Dat zou (kunnen) leiden tot betere en snellere vertalingen.

Het systeem werd honderden uren beproefd met gesproken Spaans dat moest worden vertaald in het Engels. Daarbij werden diverse lagen neurale netwerken gebruikt, computersystemen die enigszins doen denken aan de (gedachte) werking van onze hersens. Het neurale systeem analyseerde de golfvorm van het gesproken Spaans om te leren welke delen overeenkomen met welke ‘brokken’ Engelse tekst. Het systeem leerde van zijn missers. “Het systeem leert overeenkomsten te vinden tussen de golfvormen van de brontaal en de geschreven tekst”, zegt Dzmitry Bahdanau van de universiteit van Montréal in Canada, die niet aan het onderzoek deelnam.

Betere vertaling

Na de leerperiode leverde het neurale netwerk een betere Engelse vertaling van gesproken Spaans dan wanneer het gesproken Spaans eerst werd omgezet in Spaanse tekst. Bij die vergelijking werd gebruik gemaakt van de BLUE-score, een beoordeling waarbij de machinevertaling wordt vergeleken met die van een beroepstolk.
Het systeem zou volgens Sharon Goldwater van de universiteit van Edinburgh (Schotland) vooral van nut kunnen zijn voor talen die maar door weinig mensen gesproken worden. Rampenteams willen daar nog wel eens mee te maken krijgen. Zo hadden hulpverleners na de aardbeving in 2010 in Haïti geen vertaalhulp van het Haïtiaanse Frans, stelt Goldwater (die ook niet bij het Google-onderzoek is betrokken).
Zij gebruikt een soortgelijke methode als de Googlelaars om gesproken Arapaho te vertalen, een taal gesproken door ruim 1000 Arapaho-indianen in Noord-Amerika, evenals het vertalen van Ainu, een kleine taal die in Japan wordt gesproken.

Of de neurale netwerken echt zo goed zijn als het zich laat aanzien zal nog moeten worden bewezen. Er is vooralsnog te weinig bewijs daarvan. Goldwater denkt echter dat deze techniek de toekomst van het automatische vertalen zal worden.

Skype

Sommige diensten maken al gebruik van machinevertaling om mensen met verschillende talen met elkaar te laten praten. Skype heeft zijn directe spraak-naar-tekst-vertaling in 2014 geïntroduceerd. Dat kan nu tussen negen talen (waar het Nederlands niet bij zit). Skype maakt nog wel gebruik van de transcriptie van gesproken naar geschreven tekst.

Google Translate zou ook al gebruik maken van neurale netwerken, waarbij hele zinnen worden geanalyseerd om tot de beste vertaling te komen. Opmerkelijk is dat Google Translate gebruik schijnt te maken van een tussentaal, een stelsel van zinnen die dezelfde betekenissen hebben in diverse talen, om de ene in de andere taal om te zetten. Dat zou betekenen dat Google Translate een taalpaar over en weer kan vertalen zonder dat het systeem daar in ‘geoefend’ is. Ik zie het even niet voor me.

Grappig is dat Bahdanau ook niet weet hoe zo’n neuraal systeem vertaalt. “Het is erg moeilijk aan de weet te komen wat er binnen gebeurt”, zegt hij. Is het vreemd dat ik dat raar vind?

Bron: New Scientist

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *