Dans notre précédent article, nous avons détaillé les trois vagues d’interfaces hybrides qui arrivent :
- Le vocal (déjà là, mais montrant ses limites structurelles)
- L’orchestration voix + visuel (en train de devenir le standard)
- Les interfaces générées à la volée (horizon 2-5 ans)
Si vous ne l’avez pas lu, commencez par lire notre article pour comprendre le contexte.
Maintenant, passons à l’action. Comment préparer concrètement votre organisation ? Quelles métriques instrumenter ? Quelles compétences développer ? Quelle architecture mettre en place ?
Ce guide couvre quatre dimensions opérationnelles : repérer les signaux, mesurer ce qui compte, transformer vos équipes, et adapter votre architecture produit.
1. Repérer les signaux : votre marché bouge déjà
Avant d’investir massivement, il faut savoir lire les signaux qui indiquent que vos utilisateurs sont prêts pour des interfaces hybrides. Ces signaux sont déjà là, il suffit de les chercher.
Les acteurs majeurs montrent la voie
ChatGPT a évolué depuis mai 2024 avec GPT-4o, devenant véritablement multimodal : l’IA peut désormais voir, entendre, parler et comprendre des images, de la voix, du texte et du code [5].
Mais le plus révélateur, c’est l’ajout progressif du transcript à l’écran pendant la conversation vocale. Ce n’est pas un gadget : c’est une réponse à un besoin réel de traçabilité, de vérification, de réassurance. Le vocal pur crée de l’incertitude sur « ce qui a été compris ». Le visuel la lève.
Google Assistant, Alexa, et même les interfaces automobiles intègrent désormais systématiquement un retour visuel lors des interactions vocales. Ce n’est pas par hasard : les tests utilisateurs montrent que la confiance augmente de 30 à 40% quand l’utilisateur peut voir ce que le système a compris.
Comment détecter les signaux dans votre produit
Regardez vos analytics différemment. Cherchez les comportements de contournement :
- Des utilisateurs qui commencent une action en vocal mais reviennent systématiquement à l’interface graphique pour valider ?
- Des taux d’abandon élevés sur des parcours 100% vocaux pour des tâches complexes ?
- Des demandes de « confirmation visuelle » qui reviennent dans vos supports utilisateurs ?
- Des cas d’usage où vos utilisateurs passent d’un canal à l’autre (app mobile → vocal → web) ?
Ces frictions ne sont pas des bugs, ce sont des signaux que l’orchestration multimodale manque.
Action immédiate : Instrumentez vos parcours critiques pour détecter les ruptures de modalité. Où vos utilisateurs « sortent » d’une modalité pour en rejoindre une autre ? C’est là que vous avez une opportunité d’optimisation.
2. Les nouvelles métriques à instrumenter
Fini le temps où on mesurait juste le « taux de complétion de tâche ». Les interfaces hybrides demandent de nouvelles métriques qui capturent l’expérience orchestrée, pas juste la performance d’une modalité isolée.
Time-to-Answer utile (TTA)
Définition : Temps entre la question de l’utilisateur et la réponse exploitable.
Pourquoi c’est critique : Si le vocal est plus rapide pour poser une question, mais que l’utilisateur doit ensuite tout revalider à l’écran, le TTA réel est plus long que ce que vos logs vocaux indiquent.
Comment mesurer : Tracez le parcours complet, de l’intention initiale jusqu’à l’action finale. Par exemple, « Combien de temps entre ‘montre-moi mes factures impayées’ et le clic sur ‘payer' » ?
Exemple concret : Un assureur mesure que son chatbot vocal répond en 3 secondes. Mais 70% des utilisateurs ouvrent ensuite l’app pour vérifier visuellement avant d’agir. Le TTA réel ? 45 secondes en moyenne. En ajoutant un écran récapitulatif automatique pendant la réponse vocale, ils passent à 12 secondes.
Task Success Rate (TSR) cross-modal
Définition : Taux de réussite de la tâche, quelle que soit la modalité utilisée.
Pourquoi c’est critique : Une bascule voix → visuel n’est pas un échec, c’est une adaptation intelligente. Votre métrique doit capturer ça.
Comment mesurer : Définissez le succès au niveau de la tâche métier, pas de la modalité. « L’utilisateur a-t-il réservé son billet ? » peu importe s’il a commencé en vocal et fini en visuel.
Exemple concret : Une banque voit que 40% des virements commencés en vocal finissent à l’écran. Avant, ils comptaient ça comme un échec vocal. Maintenant, ils mesurent que 95% des virements se terminent avec succès grâce à cette orchestration. C’est une réussite.
Switch Friction (friction de bascule)
Définition : Coût cognitif ou temporel quand l’utilisateur change de modalité.
Pourquoi c’est critique : Si l’utilisateur doit répéter toute sa requête après être passé du vocal au visuel, c’est de la friction inutile. Si le contexte est préservé, la bascule est fluide.
Comment mesurer :
- Temps entre la dernière action dans la modalité A et la première dans la modalité B
- Taux d’abandon pendant la transition
- Nombre de répétitions/reformulations après bascule
Exemple concret : Un site e-commerce permet de chercher des produits en vocal. Mais quand l’utilisateur ouvre la page produit, il ne voit pas les critères qu’il a énoncés. Résultat : 35% reformulent leur recherche. En affichant les critères vocaux en tags visuels, la friction tombe à 5%.
Error Recovery cross-modal
Définition : Capacité du système à basculer vers une autre modalité quand la première échoue.
Pourquoi c’est critique : Le vocal rate parfois (bruit ambiant, accent, terme technique). L’écran rate parfois (environnement où on ne peut pas regarder). Un bon système dégrade gracieusement vers l’autre modalité.
Comment mesurer :
- Taux de récupération après erreur vocale via visuel
- Temps de récupération moyen
- Taux d’abandon après échec dans une modalité
Exemple concret : Un assistant vocal ne comprend pas un nom de médicament (terme médical complexe). Au lieu d’abandonner, il propose : « Je ne suis pas sûr d’avoir bien compris. Voici une liste de médicaments similaires, pouvez-vous sélectionner à l’écran ? » Taux de récupération : 80%.
3. Transformer vos équipes
L’architecture organisationnelle doit suivre l’architecture produit. Si vous voulez des interfaces orchestrées, vous ne pouvez pas avoir des équipes cloisonnées.
Fusionner équipes Product et Conversationnelles
Le problème : Dans la plupart des organisations, le vocal a grandi à part. Les équipes produit gèrent les apps et sites, les équipes conversationnelles gèrent les chatbots et assistants vocaux. Parfois rattachées à des départements différents (IT, Data, Marketing). Résultat : deux roadmaps, deux priorités, deux cultures.
Pourquoi ça ne marche plus : Concevoir une bascule fluide voix ↔ visuel demande de co-designer les deux expériences dès le départ. Si vous concevez le vocal d’un côté et rajoutez « un écran de confirmation » de l’autre après coup, ça se voit. Et ça crée de la friction.
Comment faire la transition :
- Phase 1 – Embarquer les équipes conversationnelles dans les rituels Product : sprint reviews communs, roadmap partagée, OKRs alignés. L’objectif : créer une culture commune.
- Phase 2 – Créer des squads cross-modales : Au lieu d’avoir une « équipe vocal » et une « équipe app », créer des squads par parcours utilisateur (ex: « squad onboarding », « squad paiement ») qui intègrent des compétences vocales et visuelles.
- Phase 3 – Parcours unifié : Un Designer (ou un PM?) responsable du parcours complet, quelle que soit la modalité. C’est lui qui arbitre « à quel moment on bascule du vocal au visuel ».
Exemple concret : Une banque en ligne a fusionné son équipe « chatbot » (6 personnes, rattachée à l’IT) et son équipe « app mobile » (12 personnes, rattachée au Product). Résultat : une seule équipe de 18 personnes organisée en 3 squads par parcours (compte, paiement, épargne). Chaque squad a un designer avec compétences VUI, un dev front capable de gérer du vocal, et un PM qui pense en orchestration.
Développer les compétences VUI et Prompt Engineering
VUI Design (Voice User Interface) n’est pas du GUI design. Les règles sont différentes :
- Pas de navigation hiérarchique (on ne « clique » pas en vocal)
- Gestion de l’ambiguïté (comment gérer les malentendus)
- Design des confirmations (quand demander une validation vocale vs visuelle)
- Conception des prompts et des réponses
Prompt Engineering devient une compétence produit stratégique, pas juste une compétence technique :
- Comment formuler des requêtes qui produisent des interfaces cohérentes
- Comment guider l’utilisateur pour qu’il exprime clairement son intention
- Comment gérer le contexte conversationnel sur plusieurs tours
Quels profils recruter
Les profils qui vont faire la différence dans les 2-3 prochaines années :
- Conversation Designer : spécialiste de l’expérience conversationnelle, capable de concevoir des dialogues naturels et de gérer les cas d’erreur
- “Multimodal” Product Designer : designer qui pense nativement en orchestration voix/visuel/gestuel
- Prompt Engineer (profile produit, pas dev) : capable de concevoir des prompts qui génèrent des interfaces cohérentes
- Dev Full-Stack Multimodal : maîtrise du front classique + APIs vocales + gestion du contexte temps réel
Ces profils sont rares, et donc chers. Anticipez des difficultés de recrutement.
Votre alternative : Faites monter en compétence vos équipes existantes via des formations et des accompagnements externes.
👋🏼 Pour être accompagné sur le sujet : https://monsieurguiz.fr/formations/
4. Adapter votre architecture produit
L’orchestration multimodale ne se fait pas avec votre stack actuelle sans ajustements. Il faut anticiper trois chantiers techniques.
Design System multimodal
Vos Design Systems actuels décrivent des composants pour un seul canal : boutons, inputs, cards, etc. Il faut les enrichir avec des composants multimodaux qui fonctionnent en vocal ET en visuel.
Exemples de composants multimodaux :
Confirmation hybride :
- En visuel : bouton « Confirmer » + récapitulatif
- En vocal : « Confirmez-vous cette action ? Dites ‘oui’ pour valider »
- Synchronisation : si l’utilisateur dit « oui », le bouton passe à l’état « loading », puis « success »
Prompt avec feedback visuel :
- En vocal : l’utilisateur parle
- En visuel : transcription en temps réel + indication de compréhension (« J’ai bien compris : … »)
- Synchronisation : possibilité de corriger visuellement ce qui a été mal compris
Implications pour votre Design System :
- Documenter les états synchronisés entre modalités
- Définir les règles de bascule (quand passer de l’une à l’autre)
- Créer des guidelines de cohérence : les mêmes actions doivent être formulées de façon cohérente en vocal et en visuel
Action concrète : Auditez vos 10 composants les plus utilisés. Pour chacun, posez-vous : « Comment fonctionne-t-il en vocal ? Comment se synchronise-t-il avec le visuel ? » Commencez par enrichir ces 10 composants en priorité.
Runtime capable de générer des interfaces à la demande
Pour la vague 3 (interfaces générées), votre architecture doit supporter la génération dynamique de composants d’interface en temps réel.
Concrètement, ça veut dire :
- Séparation claire entre logique et présentation : Les composants doivent pouvoir être combinés automatiquement par le code. Si un LLM génère « affiche un graphique en barres avec ces données », votre runtime doit pouvoir instancier ce composant sans recharger la page.
- Validation et sécurité : Un LLM peut générer n’importe quoi. Votre runtime doit valider que le code généré est sûr (pas d’injection de script, respect des contraintes métier) avant de l’exécuter.
- Gestion du contexte conversationnel : Si l’utilisateur dit « maintenant compare avec l’année dernière », le système doit garder en mémoire quel graphique est affiché pour l’enrichir, pas en créer un nouveau à côté.
Réalisme : Cette architecture est complexe. Horizon recommandé : commencer les POCs maintenant si vous êtes dans un secteur early adopter (finance, data analytics, BI). Pour le mainstream, vous avez 2-3 ans devant vous pour industrialiser.
Bibliothèque de patterns d’intention
Au lieu de designer des écrans statiques, vous allez designer des patterns génératifs – des règles qui permettent de créer des interfaces valides selon l’intention exprimée.
Exemple de pattern d’intention : « Comparer deux ensembles de données »
Règle générative :
- Si les données sont temporelles → générer un graphique en courbes superposées
- Si les données sont catégorielles → générer un graphique en barres groupées
- Si les données comportent > 10 dimensions → générer un tableau comparatif avec tri et filtres
- Toujours inclure une légende et un titre explicite
Autre exemple : « Filtrer une liste selon des critères multiples »
Règle générative :
- Afficher les critères actifs en chips visuels
- Permettre d’ajouter/retirer des critères en vocal (« retire le filtre sur la région »)
- Mettre à jour la liste en temps réel
- Indiquer le nombre de résultats restants
Ces patterns ne sont pas du code, ce sont des spécifications que votre runtime + le LLM vont interpréter pour générer l’interface adaptée.
5. Les questions à vous poser maintenant
Même si vous ne lancez pas un projet d’interfaces hybrides demain, vous devez commencer à vous poser ces questions. Parce que les réponses vont structurer vos recrutements, vos investissements tech, vos évolutions d’architecture.
Sur votre produit
- Quels parcours gagneraient à être multimodaux ? Identifiez 2-3 parcours critiques où vos utilisateurs perdent du temps ou abandonnent.
- Où forcez-vous une modalité alors qu’une autre serait plus adaptée ? Y a-t-il des tâches où vous forcez du visuel alors que du vocal serait plus rapide ? Ou l’inverse ?
- Quels sont vos parcours les plus « denses » cognitivement ? Ce sont eux qui bénéficieraient le plus d’une orchestration voix+visuel.
Sur votre organisation
- Vos équipes digitales et conversationnelles travaillent-elles ensemble, ou en parallèle ? Si en parallèle, c’est le moment de rapprocher.
- Qui arbitre les « moments de modalité » dans un parcours ? Qui possède l’expérience globale quand elle traverse plusieurs interfaces ?
- Avez-vous une roadmap unifiée ? Ou plusieurs roadmaps (app, vocal, web) qui se télescopent ?
Sur vos compétences
- Avez-vous des designers qui comprennent le VUI ? Si non, comment allez-vous acquérir cette compétence (recrutement, formation, accompagnement externe) ?
- Vos développeurs savent-ils concevoir des runtimes multimodaux ? Maîtrisent-ils les APIs vocales, la gestion du contexte temps réel ?
- Vos Product Managers pensent-ils en termes d’orchestration ? Ou raisonnent-ils encore en features isolées par canal ?
👋🏼 En savoir plus sur nos formations
Sur votre tech
- Votre Design System peut-il gérer des composants qui fonctionnent en vocal ET en visuel ? Si non, quel chantier pour l’enrichir ?
- Votre infrastructure peut-elle générer des interfaces à la demande ? Ou êtes-vous bloqué sur du rendering statique ?
- Vos outils d’analytics capturent-ils les bascules entre modalités ? Sinon, comment instrumenter ça rapidement ?
Sur vos métriques
- Mesurez-vous le Time-to-Answer cross-modal ? Si non, c’est la première métrique à mettre en place.
- Trackez-vous la friction de bascule ? C’est elle qui vous dira si votre orchestration est fluide ou pas.
- Suivez-vous le taux de récupération après erreur ? C’est un bon indicateur de la robustesse de votre système multimodal.
Conclusion :
Commencer à anticiper maintenant.
Les interfaces hybrides ne sont pas une mode, c’est la suite logique de la façon dont les humains interagissent naturellement. Vous ne pourrez pas l’éviter. La question n’est pas « si », c’est « quand » et « comment ».
Les organisations qui anticipent vont acquérir de l’expérience, former leurs équipes, ajuster leur architecture progressivement. Celles qui attendent vont se retrouver en 2027 à recruter en urgence, refondre leurs Design Systems, et rattraper un retard de 3 ans.
Par où commencer ?
- Instrumentez vos métriques cross-modales (Time-to-Answer, Switch Friction) sur 2-3 parcours critiques
- Rapprochez vos équipes product et conversationnelles – commencez par des rituels communs
- Formez 2-3 personnes au VUI design pour amorcer la montée en compétence
- Auditez votre Design System – identifiez les 10 composants prioritaires à enrichir
- Lancez un POC sur un parcours pilote – testez l’orchestration voix+visuel en conditions réelles
Vous n’avez pas besoin d’être parfait, vous avez besoin d’être en mouvement.
Besoin d’accompagnement ?
Vous voulez accélérer votre transition vers les interfaces hybrides ? Monsieur Guiz accompagne les organisations dans la transformation de leurs produits digitaux.
Nos interventions :
- Audit & Roadmap : évaluation de votre maturité multimodale et plan d’action priorisé
- Formation équipes : Prompt engineering, déploiement d’agent, …
- Accompagnement stratégique : Advisory pour vos Product Leaders
- Talks & conférences : sensibilisation de vos équipes aux enjeux des interfaces hybrides
📩 Contactez-nous pour échanger sur vos enjeux
📖 Lexique
Pour naviguer sereinement dans l’univers des interfaces multimodales, voici les termes clés à connaître :
WER (Word Error Rate) : Taux d’erreur de mots. Métrique standard pour mesurer la précision d’un système de reconnaissance vocale. Un WER inférieur à 10% est considéré comme de haute qualité. Plus le WER est bas, plus le système est fiable.
TTA (Time-to-Answer) : Temps entre la question de l’utilisateur et la réponse exploitable. Dans un contexte multimodal, il faut mesurer le TTA réel, incluant les éventuelles bascules entre modalités.
TSR (Task Success Rate) : Taux de réussite de la tâche. Mesure si l’utilisateur parvient à accomplir son objectif, quelle que soit la modalité utilisée. Une bascule voix→visuel n’est pas un échec si la tâche est complétée.
Friction de bascule (Switch Friction) : Coût cognitif ou temporel lorsqu’un utilisateur change de modalité d’interaction (vocal vers visuel, ou inversement). Une bonne orchestration minimise cette friction.
STT (Speech-to-Text) : Technologie de transcription automatique de la parole en texte. Première étape du traitement des commandes vocales.
TTS (Text-to-Speech) : Technologie de synthèse vocale qui transforme du texte en parole. Utilisée pour les réponses vocales des assistants.
LLM (Large Language Model) : Modèle de langage de grande taille, comme GPT-4. Capable de comprendre et générer du langage naturel, et de plus en plus capable de générer du code et des interfaces.
Interface multimodale : Interface qui combine plusieurs modes d’interaction (voix, visuel, tactile, gestuel) et permet des bascules fluides entre ces modes selon le contexte et les besoins de l’utilisateur.
VUI (Voice User Interface) : Interface utilisateur vocale. Discipline de design spécifique pour concevoir des interactions vocales efficaces et naturelles.
Pattern d’intention : Règle générative qui permet de créer une interface adaptée selon l’intention exprimée par l’utilisateur (ex: « comparer », « filtrer », « explorer »).
Runtime génératif : Infrastructure technique capable de générer et d’afficher des composants d’interface à la demande, en temps réel, sans recharger la page.
📚 Sources
[1] Maleye, « Combien de personnes utilisent des assistants vocaux quotidiennement ? », 2023 https://maleye.com/assistants-vocaux-statistiques/
[2] VoicePartner, « Marché Vocal : 10 Chiffres à Connaître en 2025 », janvier 2025 https://www.voicepartner.fr/blog/les-10-chiffres-a-connaitre-sur-le-marche-vocal/
[3] Comarketing-News, « Plus de la moitié des Français utilisent un assistant vocal », mai 2021 https://comarketing-news.fr/plus-de-la-moitie-des-francais-utilisent-un-assistant-vocal/
[4] Speechify, « Qu’est-ce que le taux d’erreur de mots (WER) ? », novembre 2024 https://speechify.com/fr/blog/what-is-word-error-rate-wer/
[5] Intelligence Artificielle, « ChatGPT va devenir une IA multimodale à la prochaine mise à jour », juillet 2025 https://intelligence-artificielle.com/chatgpt-va-devenir-une-ia-multimodale-a-la-prochaine-mise-a-jour/
[6] GM Insights, « Taille du marché de l’IA multimodale, partage | Rapport de l’industrie », juillet 2024 https://www.gminsights.com/fr/industry-analysis/multimodal-ai-market


