Gboard-update komt met verbeterde offline spraakherkenning

Spraakherkenning
“Stel je loopt uit een gebouw en je een bericht wilt sturen naar iemand zeggen: 'Ik ben al laat,” zegt Françoise Beaufays, wetenschappelijk onderzoeker en teamleider bij de spraakherkenningsafdeling van Google in een interview. “Dit is precies zo’n moment waarop je geen verbinding hebt, omdat je wifi uitgeschakeld wordt.” Met de nieuwe update van Gboard is dat probleem voorgoed verholpen.
Beaufays beweert dat verbeteringen in spraakherkenning langzaam maar zeker een revolutie teweeg zullen brengen in de manier waarop we omgaan met onze mobiele apparaten. Ze merkt op dat, hoewel spraakherkenning de afgelopen jaren verbeterd is, het nog steeds een onvolwassen technologie is. Het is een ingewikkeld proces, wat inhoudt dat de meeste spraakherkenningssystemen gegevens moeten verzenden via internet en het resultaat onbetrouwbaar kan zijn en soms langzaam verwerkt wordt.
"Stel je voor dat je een toetsenbord had waarop je niet op de toetsen kon klikken wanneer de internetverbinding slecht is", zegt Beaufays. "Je zou dat toetsenbord gewoon niet gebruiken." Maar door het systeem offline te nemen, zegt ze, wordt dicteren een meer natuurlijke keuze.
Verbeteringen
Om deze overgang te realiseren, heeft het team van Google vijf jaar lang onderzoek gedaan naar het probleem en de AI-systemen die de app gebruikt voor spraakherkenning vereenvoudigd. Zo verwerken oudere versies van Gboard in drie stappen spraak naar tekst, de bijgewerkte versie doet dit slechts in een enkele stap.
Het nieuwe model comprimeert ook een onderdeel van het systeem dat de ‘decoder graph’ wordt genoemd, een component dat fungeert als een inleiding in een boek. Hij linkt overeenkomende geluidsgolven aan geschreven woorden. In de oude versie van het dicteersysteem van Gboard was deze decodergrafiek 2 GB groot, wat veel te groot is voor verwerking op het apparaat zelf. De nieuwe versie is met slechts 80 MB vijfentwintig keer kleiner.
De uitrol van deze upgrade is tot nog toe beperkt tot Amerikaans Engels dicteren, enkel op Pixel- telefoons, maar Beaufays geeft aan dat het in de toekomst uiteindelijk op grotere schaal beschikbaar wordt. "Vanuit technologisch oogpunt zou ik zeggen dat we het ons kunnen veroorloven om dit op meer telefoons te doen dan alleen Pixel," zegt Beaufays. "Ik denk dat het aannemelijk is dat we het op meer apparaten en in meer talen kunnen lanceren."
Plaats reactie
0 reacties