Martin van Ammers
Senior Consultant
29 March 2019
7 minuten reading time
De meningen omtrent Voice zijn duidelijk: “Het is ‘the next big thing’, maar wat houdt Voice precies in? En wat kan je er als bedrijf al mee?
Bij de Emerce Voice Update in maart 2019 was de boodschap omtrent Voice duidelijk: “Het is absoluut ‘the next big thing’, maar het staat momenteel nog wel in de kinderschoenen.” Rendabele cases zijn er nog niet en het aantal actieve gebruikers van stemgestuurde applicaties en apparaten is veelal minimaal.
__
Toch zijn er al een aantal bedrijven die (veelal met een duwtje in de rug van Google) de eerste stapjes hebben gezet en het voor consumenten mogelijk maken om via hun stem bepaalde acties voor elkaar te krijgen. Zoals Rabobank die je je saldo laat checken, Auping die verhaaltjes voor het slapen gaan interactief maakt en KLM, die je helpt met het inpakken van je koffer. Toepassingen waar je nu met je desktop of mobiel zonder je stem ook wel uitkomt, waardoor het toch vooral gimmicks zijn en je je terecht af kunt vragen: wat moet ik nu met voice?
__
Twee belangrijke ontwikkelingen binnen voice zijn die van voice-to-text en van voice assistants. De eerste is vooral van belang in het begrijpen van instructies. Via gesproken tekst komt er namelijk veel meer info binnen dan via geschreven tekst. Letterlijk, want je spreekt ongeveer 270 woorden per minuut, terwijl je er maar 40 typt.
Daarnaast maken allerlei factoren zoals intonatie, emotie en dialect een gesproken tekst veel gecompliceerder, omdat die factoren ook allemaal ‘vertaald’ moeten worden. Doordat voice-to-text al een poosje aan het ontwikkelen is, is men inmiddels behoorlijk goed in staat om een boodschap om te zetten van spraak naar geschreven tekst.
Vervolgens komt die boodschap binnen bij een voice assistant, die deze weer moet interpreteren, om het juiste antwoord te kunnen geven, of de juiste actie uit te kunnen voeren. Hier wordt het pas echt interessant, want in plaats van vraag (jij) -> antwoord (assistent), groeien voice assistants momenteel steeds meer naar vraag (jij) -> wedervraag (assistent) -> antwoord op wedervraag (jij) -> antwoord op de oorspronkelijke vraag (assistent). Zo verandert de communicatie van eenzijdig naar meerzijdig, wat er weer voor zorgt dat antwoorden beter aansluiten bij je vraag.
Daarnaast gebruiken voice assistants steeds meer persoonlijke data om je een beter antwoord te kunnen geven. Dus in plaats van een lijstje met de dichtstbijzijnde 10 restaurants, krijg je een lijstje met restaurants die overeenkomen met jouw smaak op basis van je laatste restaurantbezoeken. De vraagstelling zal dan ook mee veranderen van “Hey Google, welke restaurants zijn er in de buurt?”, naar “Hey Google, welk restaurant raad je me aan?”.
Dit brengt tegelijkertijd allerlei privacy-issues met zich mee, want om jou een zo relevant mogelijk antwoord te kunnen geven, moet de voice assistant ook zoveel mogelijk van jouw interesses en voorkeuren afweten. En als die assistant continu met je meeluistert, wachtend op een vraag of opdracht, zou die dan bijvoorbeeld ook afluisteren welke tv-programma’s je kijkt? En met wie?
Interessant is ook de splitsing die er nu nog is tussen voice omgevingen. Zo beginnen conversaties in eerste instantie met Google Assistant, Siri of Alexa, die je binnen hun mogelijkheden helpen met antwoorden of het uitvoeren van acties. Maar je kunt ook praten met de voice assistants van bedrijven zelf, via spraakcommando’s zoals:
Vervolgens kun je specifieke acties uitvoeren, waar het bedrijf een dialogflow voor heeft opgesteld. Het aantal bedrijven met dergelijke Actions is momenteel nog beperkt, maar gestaag aan het groeien. Omdat je echter in eerste instantie via je eigen voice assistant in ‘gesprek’ moet zien te komen met zo’n Action, zul je eerst mensen moeten stimuleren om actief naar jouw voice assistant op zoek te gaan.
En net als bij ‘normale’ communicatie tussen personen, ontstaat er bij communicatie met een voice assistant nog vaak ruis. Zo hebben voice assistants momenteel nog problemen met het juist interpreteren van de taal van een opdracht. Zo wordt een Engelstalige titel in een Nederlandstalige zin, nog vaak fonetisch geïnterpreteerd. Zo wordt de BNR Cryptocast door de Google Assistant omgezet naar [crypto kast] en gaat vervolgens op zoek naar kasten, die iets met crypto te maken hebben. Niet echt relevant dus.
Voice-to-text moet dus nog wel wat verder ontwikkelen, maar voor nu is het ook mogelijk om dergelijke fonetische verwarringen af te vangen door ze als synoniemen in te stellen.
Een nieuwe uitdaging van voice is dat je naast het beeld dat je merk wil uitdragen, je ook een stem moet hebben die daarbij past. BNR zet hiervoor één van hun vaste presentatoren in, want aan die stem zijn luisteraars immers al gewend. Maar voor een bedrijf dat normaalgesproken geen eigen ‘stem’ heeft, wordt het nog wel een uitdaging om de juiste stem te vinden.
Wordt het een enthousiaste of juist een introverte stem? En spreekt je stem ABN of met een dialect? Past een mannenstem, of juist een vrouwenstem beter bij je bedrijf? Of misschien wel een genderneutrale stem zoals Q? Allemaal nieuwe vragen waar merken zich over moeten gaan buigen.
De adoptie van voice wil helaas nog niet echt vlotten. De introductie van de Google Home speaker in Nederland was volgens Google weliswaar de meest succesvolle introductie ter wereld, maar daadwerkelijke aantallen worden er niet genoemd. En gebruik van populaire Actions zoals de Rabobank Assistant ligt momenteel tussen de 1000-2000 gebruikers per dag. Een fractie van het aantal actieve gebruikers van hun Rabo Bankieren App.
Het probleem zit hem erin dat mensen in veel gevallen nog niet de toegevoegde waarde zien. Waarom zou je jezelf bijvoorbeeld in een volle metro voor schut zetten als je voor de derde keer je vraag opnieuw moet stellen als Siri je niet helemaal goed verstaat, wanneer je ook diezelfde vraag gewoon kunt typen?
De toegevoegde waarde van voice zit hem dan ook vooral in situaties waarin je je handen vol hebt. En niet alleen tijdens het autorijden of sporten, maar bijvoorbeeld ook als je kip aan het snijden bent, wanneer je je lekke band aan het plakken bent, of terwijl je je make-up opdoet.
In veel van die situaties is de combinatie van voice + display nog relevanter. Vandaar ook dat Voice geen stand-alone techniek is, maar juist als versterking van beeld zal dienen. De verschuiving van smart speakers naar smart displays zal dan ook de mogelijkheden en toepassingen gigantisch vergroten.
Als je namelijk iets wilt kopen via voice, dan wil je wel graag even dat product zien voordat je het bestelt. Of als jouw assistant je vertelt dat je de wortelen oblique moet snijden, dan is het wel fijn om even te zien hoe dat ook alweer moet.
_
Kortom: voice staat nog in de kinderschoenen. De technologie werkt nog niet altijd feilloos, privacy-wetgeving is er nauwelijks, de adoptiegraad is nog vrij laag en succesvolle business cases zijn er eigenlijk nog niet. En doordat voice data vooralsnog ontbreekt in Google Analytics en Search Console, heb je ook nog nauwelijks inzicht in daadwerkelijk gebruik van voice.
Het zal dan ook voor de meeste bedrijven nog even afwachten zijn, alvorens voice echt interessant genoeg wordt om mee aan de slag te gaan. Maar dat voice geen hype is, is zeker. En aangezien er bij voice in principe maar één antwoord wordt gegeven, in plaats van 10 organische resultaten en 7 adverteerders, gaat het een slachtveld worden om die ene positie te veroveren.
Dus ben jij een pionier, die nu al aan de slag wil met voice of wil je gewoon eens sparren over de mogelijkheden die er voor jouw bedrijf zijn op gebied van voice? Neem dan eens contact op (dat mag zowel via geschreven tekst, als gesproken tekst)! Want hoe eerder je als bedrijf instapt, hoe groter de kans dat jij klaar bent voor voice, als de technologie, wetgeving en consument er ook klaar voor zijn.