Si vous attendiez avec impatience la dernière mise à jour printanière d’OpenAI pour ChatGPT et espériez que la société publierait GPT-5, vous seriez déçu à cet égard. Mais ce qu’OpenAI a publié à la place compenserait largement cela.
La société a récemment dévoilé son nouveau modèle phare – le GPT-4o – et il s’agit d’un chef-d’œuvre de l’innovation humaine. Le « o » dans GPT-4o signifie « omni » et c’est un clin d’œil approprié aux dernières capacités omniprésentes de ChatGPT. Bien qu’il n’y ait pas beaucoup d’amélioration en termes d’intelligence et de raisonnement par rapport au modèle GPT-4, le nouveau modèle présente des améliorations drastiques en termes de vitesse et de multimodalité.
Qu’est-ce que ça veut dire? GPT-4o a amélioré les capacités en matière de texte, de voix et de vision. Il peut mieux comprendre et discuter des images. Mais la partie la plus intéressante de cette mise à jour est sa capacité à converser avec vous en temps réel par audio et vidéo, nous faisant ainsi entrer dans le futur de l’interaction homme-machine. La plupart d’entre nous n’ont imaginé cette interaction de science-fiction qu’avec une IA au bout du chemin. Mais c’est ici, et c’est passionnant.
Mira Murati, CTO d’OpenAI, ainsi que deux responsables de recherche, ont présenté les nouvelles capacités de GPT-40.
Le modèle vocal a une personnalité et une tonalité incroyables, capables de vous faire oublier (pendant un moment) que vous interagissez avec une IA. C’est terriblement excitant. Les réponses sont beaucoup plus naturelles et il rit même et fait semblant de rougir comme un humain.
La démo a également mis en évidence la gamme d’émotions que ChatGPT peut afficher lorsqu’on lui demande explicitement : tout en racontant une histoire, ChatGPT a imprégné sa voix de plus d’émotions et de drame, est passé à un son robotique et a même chanté comme s’il était dans une comédie musicale, et il l’a fait. le tout en toute transparence.
De nombreux utilisateurs disent que la voix leur rappelle l’IA de Scarlett Johansson dans le film « Her », mais il s’agit notamment de la même voix que celle de ChatGPT dans le passé. Toute la différence vient des changements de tonalité et de quelques rires bien placés.
Lorsque vous l’associez à ses capacités à voir et à répondre au contenu à l’écran, c’est carrément époustouflant. Grâce à ses nouvelles capacités de vision, ChatGPT pouvait non seulement comprendre des éléments tels que des équations linéaires, mais il faisait également un travail remarquable en interprétant l’environnement ainsi que les émotions sur le visage d’une personne qui lui étaient présentées à l’aide de la caméra. Vous pouvez désormais même jouer à pierre-feuille-ciseaux et demander à ChatGPT d’être l’arbitre ou aller encore plus loin dans la préparation de l’entretien avec ChatGPT en lui demandant de critiquer votre tenue, et cela ne passera pas sous silence les mauvais choix que vous faites.
Dans l’ensemble, l’effet est remarquable et vous fait presque croire que vous interagissez avec une personne réelle lors d’un appel vidéo (si l’autre personne a toujours gardé sa caméra éteinte).
https://www.youtube.com/watch?v=DQacCB9tDaw
Le modèle vocal est également globalement meilleur que celui actuellement disponible. Le dialogue se déroule davantage comme une conversation naturelle, où vous pouvez l’interrompre au milieu, il peut comprendre et différencier plusieurs voix et bruits de fond, ainsi que le ton de la voix.
Sur le plan technique, c’est parce que GPT-4o peut tout faire nativement qui nécessitait jusqu’à présent trois modèles différents : Transcription, Intelligence et Text-to-Speech. Ces améliorations apportent une expérience collaborative plus immersive à l’utilisateur au lieu des latences des modèles précédents.
Alors que l’accès à GPT-4o commence déjà à être déployé pour les utilisateurs gratuits et Plus dans l’application Web, le nouveau mode vocal avec GPT-4o sera lancé en version alpha uniquement pour les utilisateurs de ChatGPT Plus dans les semaines à venir. Une nouvelle application macOS ChatGPT est également publiée, avec un accès déployé de manière itérative, à partir des utilisateurs de ChatGPT Plus.
Bien que la démo soit assez impressionnante, nous devrons attendre pour voir si l’application dans le monde réel sera aussi fluide lorsque le modèle sera enfin publié.
Laisser un commentaire