Test du mode vocal avancé de ChatGPT : divertissant et impressionnant, mais pas encore un véritable changement de jeu

En mai, la démonstration du mode vocal avancé d’OpenAI a captivé le public, suscitant une vague d’enthousiasme. Cependant, cet enthousiasme initial s’est rapidement transformé en déception lorsqu’il a été révélé que la fonctionnalité ne serait disponible que plus tard dans l’année.

Quelques mois plus tard, OpenAI a déployé le mode vocal avancé pour tous les utilisateurs de ChatGPT, y compris les abonnés gratuits et payants. La technologie étant désormais disponible pour une utilisation plus large, il est temps d’évaluer ses performances et de voir si elle répond aux attentes élevées fixées par la présentation initiale.

Évaluation des capacités et des limites

Les utilisateurs qui s’attendaient à ce que le mode vocal avancé reproduise les fonctionnalités impressionnantes présentées dans la démo précédente ont été clairement déçus. Des fonctionnalités clés telles que la multimodalité, la connectivité Internet et les capacités de téléchargement de fichiers sont notablement absentes. Malgré le déploiement de la recherche ChatGPT, le mode vocal ne dispose toujours pas d’un accès Internet en temps réel ni de mises à jour.

De plus, l’impossibilité de poursuivre des conversations vocales issues d’interactions textuelles antérieures limite son utilité pratique. Cette lacune contraste fortement avec les capacités prometteuses mises en évidence lors de la démonstration, incitant les utilisateurs à souhaiter des fonctionnalités qui restent inexploitées.

Améliorations du flux conversationnel

Malgré ses limites, le mode vocal avancé présente des améliorations notables par rapport à son prédécesseur. Les conversations semblent plus naturelles et les utilisateurs peuvent interrompre la conversation sans attendre que l’IA « réfléchisse », créant ainsi une expérience plus engageante.

Certains spéculent sur les processus d’arrière-plan du nouveau mode vocal, mais mon expérience suggère qu’il y a un décalage minimal entre le moment où l’on parle et celui où l’on reçoit une réponse. Cette immédiateté favorise un sentiment de dialogue proche de la conversation humaine.

La possibilité de passer d’une langue à l’autre, notamment l’hindi, le punjabi, l’anglais et le français, est également louable. Cependant, il a parfois du mal à faire la différence entre l’hindi et le punjabi, et le mode vocal pourrait bénéficier d’une fonction de transcription en direct pour l’apprentissage des langues.

Des options vocales diverses et engageantes

La sélection de voix de ChatGPT améliore l’expérience utilisateur. Actuellement, il propose les voix suivantes :

Arbor (M) – Facile à vivre et polyvalent
Vale (F) – Vif et curieux
Breeze (M) – Animé et sérieux
Sol (F) – Averti et détendu
Érable (F) – Gai et franc
Cove (M) – Composé et direct
Ember (M) – Confiant et optimiste
Juniper (F) – Ouvert et optimiste
Épicéa (M) – Calme et affirmatif

La nature vivante de ces voix rend les interactions beaucoup plus agréables par rapport à celles proposées par des concurrents comme Gemini Live et Copilot, qui manquent d’une fluidité conversationnelle similaire.

Défis liés aux restrictions

Bien que le mode vocal puisse transmettre efficacement les nuances émotionnelles nécessaires à la narration, il est insuffisant en raison de limitations trop strictes. Dans la démo précédente, les utilisateurs ont pu bénéficier d’une gamme plus large de fonctionnalités, notamment la possibilité de chanter, qui a été supprimée pour éviter d’éventuelles violations du droit d’auteur.

Malheureusement, ces contraintes nuisent à l’expérience globale. Les utilisateurs peuvent se voir refuser des demandes raisonnables, comme la génération de dialogues pour la pratique du jeu d’acteur, ce qui crée de la frustration. Le mode vocal avancé peut parfois répondre à certaines demandes créatives avec un peu d’aide, mais il semble souvent que l’incohérence entrave sa facilité d’utilisation.

Capacités de mémoire et perception du contexte

Une caractéristique notable du mode vocal avancé est sa capacité à rappeler des informations. Cependant, il ne permet pas de suivre les conversations vocales au sein de chats existants contenant du texte ou des images, ce qui constitue une limitation importante.

En comparaison, Gemini Live prend en charge le dialogue continu quels que soient les contextes de discussion précédents, mettant en évidence un domaine dans lequel OpenAI devra peut-être s’améliorer pour être compétitif efficacement.

Des délais de réponse rapides

Si les réponses rapides améliorent la dynamique de la conversation, elles peuvent parfois perturber le flux du dialogue. L’IA a tendance à interpréter les pauses comme une invitation à répondre, ce qui entraîne des interruptions qui peuvent faire dérailler le fil de la pensée de l’utilisateur.

Une fonctionnalité permettant aux utilisateurs de signaler des pauses plus longues, similaire à un bouton « Hold », améliorerait grandement le naturel de ces interactions.

Problèmes mineurs occasionnels

La plupart des interactions avec le mode vocal avancé sont fluides, mais les utilisateurs peuvent parfois rencontrer des problèmes mineurs, tels que de brefs bruits statiques ou des changements de voix inattendus. Bien que ces problèmes soient généralement mineurs, ils peuvent parfois perturber l’expérience utilisateur.

Considérations relatives aux coûts et à l’accessibilité

Le mode vocal avancé est accessible sur le plan gratuit ChatGPT pendant environ 15 minutes par mois, mais l’accès complet nécessite un abonnement. Cela contraste avec des concurrents comme Copilot et Gemini Live, qui offrent leurs fonctionnalités vocales gratuitement aux utilisateurs.

Le prix de l’abonnement, ainsi que l’absence de fonctionnalités telles que l’accès Internet que l’on retrouve dans d’autres modèles, soulèvent des questions sur la valeur du service, en particulier pour les utilisateurs uniquement intéressés par les capacités vocales.

Évaluation finale

Bien que le mode vocal avancé présente des avancées technologiques impressionnantes, il ne parvient pas à offrir toutes les promesses de la démo. Ses applications pratiques sont limitées et, sans améliorations significatives, il s’agit plus d’une nouveauté que d’un outil indispensable.

Pour ceux qui sont déjà abonnés à ChatGPT pour des fonctionnalités telles que Canvas, Search ou le modèle de raisonnement, le mode vocal avancé peut servir de complément intéressant. Cependant, il ne justifie peut-être pas à lui seul un abonnement.

Source et images