Talking business: de toekomst van enterprise voice-technologie

25 januari 2022, 08:06 bouw

Geschreven door John Harris, Global Director of Research & Development bij Panasonic Mobile Solutions Business Division
Velen van ons gebruiken nu al spraak in interactie met technologie. Dat is niet nieuw. Maar de snelheid waarmee deze verandering momenteel plaatsvindt, verdient bijzondere aandacht. Recente studies tonen bijvoorbeeld aan dat steeds meer consumenten slimme luidsprekers gebruiken om hun leven gemakkelijker te maken. In de VS, dat op tech-gebied toch het voorland van Europa is, zijn de spraakgestuurde apparaten van Amazon inmiddels goed voor ongeveer 70% van het marktaandeel, oftewel bijna 100 miljoen units. Digitale assistenten zullen tegen 2023 naar verwachting een omvang van 8 miljard stuks benaderen, een cijfer dat hoger ligt dan het huidige aantal mensen op deze planeet. Deze exponentiële groei wijst erop dat de bevolking steeds meer vertrouwd raakt met deze oplossingen.
Dit is des te indrukwekkender wanneer je bedenkt dat nog niet zo lang geleden de enige ervaring van de consument met spraaktechnologie in de bedrijfswereld bestond uit frustrerende telefoontjes met de klantendienst, waarvan het systeem er bijna op leek te zijn gericht te voorkomen dat je een adviseur kon bereiken. Maar sindsdien hebben deze toepassingen een ongelooflijke sprong voorwaarts gemaakt. Ze staan nu veel dichter bij de held uit mijn kindertijd, de computer die in de serie Star Trek dienst deed als digitale assistent: hij maakte volledige spraakherkenning mogelijk zonder begripsproblemen en zonder zijn gesproken opdrachten ooit te hoeven herhalen. Kortom, de technologie kan eindelijk doen waarvoor zij bedoeld was, en natuurlijke taalverwerking belooft een vrijwel onbeperkte winst in tijd en moeite.
Een ontstaansgeschiedenis in de jaren 1970 Hoe is deze uitvinding tot stand gekomen? Spraakherkenning en digitale assistentie-oplossingen hebben echt een vlucht genomen in 1971. De oorsprong van hun ontwikkeling ligt eerder, maar ik denk dat de creatie van het Harpy systeem door de Carnegie-Mellon Universiteit het echte beginpunt was, met een operationele versie die meer dan 1000 woorden en een paar zinnen kon verwerken.
In 1986 lanceerde IBM zijn IBM Tangara-oplossing. Dankzij de statistische toepassingen kon het de volgende fonemen in de spraak voorspellen en zo een grote vooruitgang op dit gebied bewerkstelligen: meer dan 20.000 woorden werden herkend.
NaturallySpeaking 1.0, het eerste computerproduct om ononderbroken te dicteren, werd in 1997 ontwikkeld door Dragon Systems. Tien jaar later werd het PAL-programma (Personal Assistant that Learns) geboren uit een militair onderzoeksinitiatief, en trad kunstmatige intelligentie op de voorgrond.
In 2008 onthulde Google zijn spraakherkenningsapplicatie voor mobiele telefoons, terwijl Apple spraakherkenning op cloudbasis introduceerde voordat het in 2011 SIRI uitbracht. Ten slotte lanceerde Amazon in 2014 zijn Echo-oplossing op basis van Alexa, zijn beroemde spraakgestuurde digitale hulpsysteem. Ondanks deze late betreding van de markt is de rol van Amazon in de democratisering van spraaktoepassingen en hun bliksemsnelle opkomst aanzienlijk.
Oneindig aantal mogelijkheden Maar welke mogelijkheden bieden deze geavanceerde functies in de professionele wereld? Ik denk dat we nog maar het topje van de ijsberg zien. Er is een aantal eenvoudige toepassingen die naar een werkomgeving kunnen worden overgebracht, zoals spraakbesturing op afstand, online digitale assistenten of bots die mensen naar de juiste dienst leiden. Voor de mobiele werknemers kan deze functionaliteit een groot aantal toepassingen hebben. Stelt u zich eens voor dat u uw mobiele computer in een magazijn kunt vragen wanneer een bepaald onderdeel voor het laatst werd geïnspecteerd of dat je hem de opdracht kunt geven om de laatste tien storingen op te sommen. Of misschien zelfs een bepaalde onderhouds- of reparatieprocedure uit te leggen. Dit soort professionele oplossingen is al haalbaar, maar eenvoudige toepassingen zijn hiermee mogelijk. Zoals een antwoord op de vragen over de volgende site die je moet bezoeken, of gewoon op de vraag waar je je sleutels hebt gelaten.
Maar zoals elk idee in ontwikkeling moeten ook deze potentiële nieuwe toepassingen nog enkele uitdagingen overwinnen. Buiten het bereik van een Wi-Fi-verbinding moet het mobiele apparaat over voldoende processorkracht beschikken om de taak te analyseren, alsmede over geheugencapaciteit om de bibliotheek voor natuurlijke taalverwerking te hosten. De oplossing zal ook moeten leren omgaan met verschillen in accent en uitspraak.
Er zijn echter ook voordelen verbonden aan offline werken. Lokale verwerking biedt extra veiligheid en meer snelheid omdat de informatie niet meer in de cloud hoeft te worden verwerkt. Deze uitdagingen bestuderen wij regelmatig in onze onderzoeken, in samenwerking met de eindgebruikers, om oplossingen te ontwikkelen die echt beantwoorden aan de verschillende situaties op het terrein, en om het potentieel van spraaktechnologieën nog verder uit te breiden.
Voor meer informatie: www.toughbook.nl