Quand Google soulève le capot de son Assistant - Petit Web

Qui ?
Brad Abrams, Group Product Manager de Google Assistant.

Quoi ?
A Austin, pour SXSW 2018, une présentation sur le fonctionnement de Google Assistant et des conseils pour les marques et les développeurs.

Comment ?

A Austin, comme quelques semaines auparavant à Barcelone pour le Mobile World Congress ou à Las Vegas pour le CES, Google a investi massivement pour promouvoir son Google Assistant, et damer le pion à Amazon Alexa, jusqu'alors l'interface vocale la plus visible - prime au pionnier oblige. A travers la ville, des voitures électriques "Hey Google" sillonnaient les rues, pour conduire les festivaliers à la "Google Fun House" où étaient présentés de façon ludique des applications de l'interface vocale de Google. Ceux qui n'ont pas pu y entrer - la maison a été victime de son succès, avec jusqu'à 1h30 d'attente - pouvaient toujours se rabattre sur des cabines équipées de Google Home, installées à l'hôtel Fairmont. Une maigre consolation.

Si Google investit aussi massivement, c'est avant tout pour draguer les marques et les développeurs : comme pour les smartphones, la richesse de l'écosystème sera clé dans l'adoption par les utilisateurs. "Nous sommes au même stade qu'en 2007, à l'annonce de l'iPhone : aujourd'hui, quel développeur ne souhaiterait pas avoir investi dans les applications mobiles dès cette époque, pour bénéficier de l'avantage du premier entrant ?" explique Brad Abrams.

Pour convaincre, Google peut afficher à son compteur plus de 400 millions de terminaux intégrant Google Assistant : Google Home, Google Home Mini, Android Auto, télévisions connectés ou "smart displays" (qui cumulent écran et voix). Mais ce sont surtout les smartphones Android qui constituent le gros des appareils équipés... qu'ils soient utilisés ou pas . "C'est seulement le début : les assistants sont là pour durer. On le voit, les attentes des gens évoluent".

Avec les assistants vocaux, on change d'époque : fini le temps où l'on apprenait à parler le langage des ordinateurs, maintenant, c'est l'ordinateur qui apprend à parler notre langue. Là où les requêtes de recherche s'appuyaient sur des mots clés ("Cheap SF eats Chinese"), le langage naturel prend le pas ("How about Chinese ?"). L'évolution s'observe aussi bien dans les interfaces vocales que dans les interfaces conversationnelles textuelles, puisque, à la différence d'Amazon Alexa, Google Assistant est présent dans les deux environnements.

Concevoir une enceinte connectée est un défi technologique : pendant sa présentation, Brad Abrams a passé en revue les différentes composantes de l'expérience Google Home. En coulisses, l'expérience se décompose en deux étapes : la compréhension, puis la réponse. "Comprendre est la partie la plus complexe" explique le responsable de Google Assistant.

Tout commence dans le "hardware", le terminal : le micro de Google Home est optimisé pour fonctionner dans des environnements bruyants et reconnaître le "hotword" ("Ok Google", en l’occurrence), qui déclenche son fonctionnement. Pour des raisons de respect de la vie privée, la détection de ce mot-clé se fait au niveau de l'appareil, et non dans le cloud (ce qui aurait nécessité l'enregistrement en permanence et l'envoi sur les serveurs de Google de tout ce qui est dit autour de l'appareil). "Cette contrainte a été un grand défi dans la phase de conception : il fallait un processeur puissant, mais pas trop cher."

Pour entraîner l'Assistant, l'enregistrement de centaines de milliers de personnes prononçant "OK Google" a été nécessaire... Et afin d'éviter que les publicités TV pour l'appareil ne déclenchent les appareils de tous les téléspectateurs, comme l'avait expérimenté Pizza Hut, une empreinte sonore - inaudible par les humains - est intégrée au spot, qui désactive la reconnaissance.

Vient ensuite la transcription de la parole en texte, qui s'effectue, elle, via les serveurs de Google. Il s'agit d'un processus statistique, qui repose sur des probabilités. Mais reconnaître des mots ne suffit pas : entendre et comprendre sont deux choses bien différentes. Le texte doit être transformé en "intentions" et en actions. Par exemple, lorsque Google Assistant est arrivé en Grande-Bretagne, il parlait certes Anglais, mais un Anglais américain... Les utilisateurs britanniques pouvait toujours attendre s'ils demandaient à Google Assistant de "Pop the kettle on" à l'heure du thé. "Même s'il est facile de retranscrire parfaitement ce que l'utilisateur dit, il est ensuite difficile de le traduire en intention."

Les choses se complexifient encore lorsqu'une action comporte différentes modalités : "si vous achetez une pizza, vous allez préciser 'aux champignons' ou 'au pepperoni'. Ce sont des 'slots', des données structurées qu'il faut avoir catalogué auparavant." Parfois, l'Assistant peut prendre en compte le contexte pour comprendre les modalités, mais cette fonctionnalité est encore largement perfectible. "Si vous demandez où est la Joconde, il vous répondra "à Paris". Et si ensuite vous lui demandez de vous trouver un restaurant autour, l'Assistant comprendra que vous parlez de Paris."

Après avoir traduit et compris la demande de l'utilisateur, encore faut-il savoir lui répondre... A la différence d'un moteur de recherche classique, Google Assistant n'affiche qu'un résultat. Comment prioritise-t-il, notamment si l'utilisateur ne précise pas le fournisseur de service qu'il veut utiliser ? "Si vous cherchez 'le meilleur café', la réponse va être personnalisée en fonction de ce que l'on sait de vous. Si vous voulez une pizza, vous pouvez la commander chez Domino's ou Pizza Hut, mais vous pouvez aussi avoir envie de la manger au restaurant... L'Assistant va essayer de déterminer le meilleur fournisseur pour vous." Une réponse qui ne sera pas de nature à rassurer les marques et les distributeurs... Pour survivre dans cet univers, il faudra être en position de leader sur son sujet ou inciter les utilisateurs à interagir directement avec sa marque, dans une application dédiée.

Mais pour l'instant, les marques qui développent des applications sur Google Home ne peuvent personnaliser que dans une certaine mesure l'expérience vocale qu'elles proposent : les développeurs choisissent entre 14 voix différentes en anglais, mais seulement 8 en Français (dont 4 en québécois). C'est donc surtout dans le style des réponses qu'elles peuvent se démarquer. "Les marques doivent trouver leur personnalité, leur ton, dans la façon de s'adresser à leurs utilisateurs." Pour cela, Brad Abrams recommande la création d'un "persona" de la marque. Pour Google Assistant, c'était une jeune bibliothécaire un peu hipster. "Cette représentation a eu des répercussions sur la façon de parler de Google Assistant, sur sa personnalité, ses blagues..."

Les usages se concentrent autour de trois moments : le réveil, le trajet domicile-travail, et les moments de détente en soirée, avec des usages tels que la recherche de films ou de musique, la commande de repas, la domotique ou l'envoi de SMS. Pour réussir, les marques sont donc invitées à se concentrer sur ces créneaux propices : "trouvez les micro-moments où vous pouvez assister les gens. Pensez aux moments clés, aux besoins-clients auquel votre service va pouvoir répondre. Et cherchez là où les données que vous possédez vont faire la différence."

Mais de cette présentation où il aura été beaucoup question de pizza, on reste sur sa faim : rien n'est dit sur les modèles économiques et la monétisation de telles applications vocales... "L'expérience de découverte et de distribution des applications est encore perfectible. [...] Quant aux modèles de monétisation, on en est seulement au tout début" reconnait tout de même Brad Abrams, sans entrer dans le détail. Une chose est certaine : la publicité intrusive n'y aura pas sa place : "le but de l'Assistant est d'aider les gens, pas d'être une distraction."

Benoit Zante

F8 : le paradoxe Facebook en quatre équations

Nos shots d’inspiration, servis frappés de Slush

L’écosystème contre-attaque

F8 : maquillage d’un cochon ou move stratégique ?