L’ère des interfaces hybrides pour les product people

On parlait aux ordinateurs dans Star Trek. Aujourd’hui, on leur parle au travail, dans la voiture, dans le salon. Ce qui relevait de la science-fiction il y a 20 ans est devenu banal : plus d’un Français sur 2 utilise déjà un assistant vocal ^[1], et 8,4 milliards d’assistants vocaux sont en circulation dans le monde en 2024 ^[2].

Mais quelque chose est en train de changer. Les utilisateurs basculent naturellement d’une modalité à l’autre. Ils commencent une recherche en vocal, passent à l’écran pour comparer des options, reviennent au vocal pour confirmer. Pas parce que la technologie est bancale, mais parce que c’est comme ça qu’on pense et qu’on décide.

La vraie question pour les Product Leaders, ce n’est plus « vocal ou visuel ? », c’est : comment anticiper les interfaces qui orchestrent plusieurs modalités sans couture ? Parce que la vague qui arrive, c’est voix + visuel aujourd’hui, gestuel + contextuel demain, et bientôt des interfaces qui se construisent à la volée pendant qu’on interagit avec elles.

Cet article explore ces trois vagues successives et pourquoi elles sont inévitables.

1. La vague en cours : le vocal décolle (et montre déjà ses limites)

L’adoption du vocal n’est plus une promesse, c’est une réalité mesurable. En France, 36% des personnes utilisent un assistant vocal au moins une fois par jour ^[1]. L’usage est massif, transversal : 27% des utilisateurs ont entre 35 et 49 ans, et 39% ont plus de 50 ans ^[3]. Ce n’est plus un truc de geeks ou de jeunes early adopters.

Le vocal réduit la friction pour certaines tâches : requêtes longues et contextuelles (« réserve une table pour 4 personnes demain soir près du bureau, idéalement italien »), actions mains occupées (en voiture, en cuisine), recherches floues où on ne sait pas exactement quoi taper. La parole comme raccourci d’intention, c’est puissant.

Et techniquement, on a franchi un cap. Les systèmes de reconnaissance vocale avec un taux d’erreur de mots (WER) inférieur à 10% sont désormais considérés comme de haute qualité ^[4]. On est passé de « il faut répéter trois fois » à « ça marche du premier coup ». Ce seuil de fiabilité change tout.

Sauf que dès qu’on creuse les usages réels, on voit les limites structurelles. L’usage est majoritairement à domicile (84%) _^[3]. En open-space ? Compliqué. Dans le métro ? Gênant. Pour valider un paiement ? On veut voir ce qu’on confirme.

Et puis il y a la charge cognitive : comparer trois options en vocal, c’est épuisant. Garder en tête une liste de 7 éléments pendant qu’on écoute ? Notre mémoire de travail sature. Pour les tâches denses – comparaisons, tableaux, états multiples – on a besoin d’externaliser visuellement.

Le vocal seul ne suffira jamais. C’est une modalité parmi d’autres, puissante pour certains contextes, limitante pour d’autres.

2. Ce qui émerge : l’orchestration voix+visuel comme nouveau standard

On n’est plus dans le « vocal OU écran ». On est dans l’orchestration. Les produits qui gagnent ne forcent pas l’utilisateur à choisir une modalité, ils facilitent les bascules fluides entre voix et visuel en fonction du contexte et de la tâche.

L’avantage compétitif se cache dans les transitions

Prenons un exemple concret : un utilisateur démarre une recherche vocale (« compare les forfaits mobile à moins de 20€ »). Le système répond en vocal pour confirmer la requête, mais affiche simultanément un tableau comparatif à l’écran. L’utilisateur scanne visuellement, repère deux options intéressantes, puis dit « plus de détails sur l’option 2 ».

Trois modalités en 30 secondes : vocal pour l’intention initiale, visuel pour la comparaison, vocal pour approfondir. C’est naturel, pas compliqué. Mais pour le concevoir, il faut sortir des silos organisationnels.

Dans beaucoup d’organisations, le vocal a grandi séparément des équipes product historiques. Les équipes produit d’un côté, les équipes conversationnelles – héritières des chatbots – de l’autre. Parfois à l’IT, parfois à la Data, parfois au marketing. Deux cultures, parfois deux roadmaps. Ça fonctionnait tant que les cas d’usage restaient distincts.

Mais quand l’expérience utilisateur exige d’orchestrer vocal et visuel dans le même parcours, ce cloisonnement devient un handicap.

Les « moments de modalité » deviennent un élément de design

Les meilleurs Design Systems commencent à intégrer des règles de bascule. Pas juste « on a un mode vocal et un mode écran », mais « à ce moment du parcours, on passe de A à B parce que la charge cognitive bascule » ou « cette action critique nécessite une confirmation visuelle ».

Quelques heuristiques qui émergent :

Synthèse narrative → commencer en vocal
Choix multiples / comparaison → basculer vers le visuel
Validation / trace → toujours montrer + journaliser

Le marché de l’IA multimodale interactive devrait croître avec un taux de croissance annuel de 34,4% jusqu’en 2034, porté par la nécessité d’interfaces dynamiques qui combinent voix, gestes et entrées visuelles ^[6]. Les entreprises qui maîtrisent cette orchestration prennent une longueur d’avance.

Mais concevoir ces règles ne se fait pas à l’instinct. Ça demande de nouvelles métriques pour mesurer la friction de bascule, de nouvelles compétences pour designer des parcours multimodaux, et une architecture technique capable de synchroniser plusieurs modalités en temps réel.

3. Ce qui se prépare : des interfaces qui se construisent pendant qu’on leur parle

Si voix+visuel, c’est la vague émergente, la suivante est déjà en formation. Et elle va forcer les organisations à repenser encore plus profondément leur façon de concevoir les interactions.

Voilà le changement radical : les LLM ne se contentent plus de répondre à des questions, ils peuvent générer du code en temps réel. Traduction pour les interfaces : vous parlez à vos données, et l’UI se construit à mesure de la conversation.

Un exemple pour rendre ça concret

Imaginez un dashboard commercial. Aujourd’hui, vous avez des vues prédéfinies : CA mensuel, top clients, pipeline. Si vous voulez croiser les ventes par région et par produit, il faut soit que ce widget existe déjà, soit demander à la Data de le créer.

Demain : « Montre-moi les ventes du produit X par région, avec l’évolution sur les 6 derniers mois. » L’interface génère un graphique en temps réel. Vous ajoutez : « Maintenant compare avec le produit Y. » Un second graphique apparaît. « Ajoute les marges. » Les barres se segmentent. « Trie par marge décroissante. » Ça se réorganise.

Vous n’avez pas navigué dans des menus. Vous avez parlé à vos données, et l’interface s’est adaptée à votre raisonnement. Ce n’est pas une démo de laboratoire : des prototypes fonctionnent déjà dans certaines entreprises.

Pourquoi c’est plus proche qu’on ne le croit

Deux facteurs accélèrent cette transition : la qualité des modèles qui génèrent du code valide et exploitable, et l’explosion des fenêtres de contexte qui permettent de garder en mémoire toute l’historique de la conversation pour maintenir la cohérence de l’interface générée.

Horizon ? 2-3 ans pour les early adopters dans des contextes métier spécifiques, 5 ans pour une adoption mainstream. C’est demain, pas dans 10 ans.

Et ça change tout : les interfaces ne seront plus conçues uniquement en amont par des designers, elles seront co-construites en temps réel avec l’utilisateur. Les Design Systems ne décriront plus seulement des composants statiques, mais des patterns génératifs – comment créer un graphique valide, une liste triable, un formulaire contextuel selon l’intention exprimée.

Les organisations qui ne l’anticipent pas vont se retrouver avec des architectures inadaptées quand cette approche va se démocratiser.

Conclusion : vous savez maintenant CE qui arrive

Trois vagues se succèdent :

Le vocal – déjà là, mais limité quand il est seul
Voix + visuel – en train d’émerger comme nouveau standard d’orchestration
Interfaces générées – plus proches qu’on ne le croit (2-5 ans)

Ces évolutions ne sont pas des paris technologiques. Elles répondent à la façon dont les humains pensent et interagissent naturellement : on bascule entre modalités selon le contexte, la charge cognitive, l’environnement. Le marché l’a compris, les chiffres le confirment.

Pour les Product Leaders, le message est clair : il faut anticiper maintenant. Pas tout refaire demain, mais commencer à poser les bonnes questions, cartographier les opportunités, identifier les parcours à transformer.

Mais concrètement, comment ? Quelles métriques instrumenter pour piloter cette transition ? Quelles compétences développer dans vos équipes ? Quelle architecture mettre en place pour supporter ces interfaces hybrides ? Comment fusionner vos équipes product et conversationnelles ?

💡 Pour approfondir le sujet, découvrir notre nouvel article

📚 Sources

[1] Maleye, « Combien de personnes utilisent des assistants vocaux quotidiennement ? », 2023 https://maleye.com/assistants-vocaux-statistiques/

[2] VoicePartner, « Marché Vocal : 10 Chiffres à Connaître en 2025 », janvier 2025 https://www.voicepartner.fr/blog/les-10-chiffres-a-connaitre-sur-le-marche-vocal/

[3] Comarketing-News, « Plus de la moitié des Français utilisent un assistant vocal », mai 2021 https://comarketing-news.fr/plus-de-la-moitie-des-francais-utilisent-un-assistant-vocal/

[4] Speechify, « Qu’est-ce que le taux d’erreur de mots (WER) ? », novembre 2024 https://speechify.com/fr/blog/what-is-word-error-rate-wer/

[6] GM Insights, « Taille du marché de l’IA multimodale, partage | Rapport de l’industrie », juillet 2024 https://www.gminsights.com/fr/industry-analysis/multimodal-ai-market