Claude 3.5 Sonnet publié par Anthropic : un nouveau modèle d’IA impressionnant

Claude 3.5 Sonnet publié par Anthropic : un nouveau modèle d’IA impressionnant

Récemment, Anthropic a apporté des améliorations à son modèle phare, Claude 3.5 Sonnet, qui aurait pu passer inaperçue en raison d’autres mises à jour notables telles que l’utilisation de l’ordinateur et l’outil d’analyse. Cependant, la mise à jour Claude 3.5 Sonnet introduit plusieurs améliorations notables.

Bien que Computer Use représente une avancée significative, son adoption par les utilisateurs est encore limitée. Cela est principalement dû au fait qu’il en est aux premiers stades de développement et qu’il manque de fiabilité. De plus, son accessibilité est limitée à l’utilisation des API, ce qui le rend moins accessible au grand public.

En revanche, le nouveau Claude 3.5 Sonnet est immédiatement disponible et offre des performances considérablement améliorées. Alors, qu’est-ce qui distingue exactement ce 3.5 Sonnet mis à jour ?

Un rapport d’Anthropic souligne que le dernier Claude 3.5 Sonnet a montré des améliorations notables par rapport aux modèles précédents et à de nombreux concurrents sur les benchmarks du secteur. Les avancées en matière de codage agentique et d’utilisation des outils sont particulièrement impressionnantes. Par exemple, il a augmenté sa précision de codage agentique de 33,4 % à 49 % lors de la vérification sur banc SWE, et pour l’utilisation des outils agentiques sur le test sur banc TAU, il est passé de 51,0 % à 69,2 % dans le commerce de détail et de 22,8 % à 46,0 % dans le secteur aérien. Notamment, ces améliorations sont obtenues au même coût et à la même vitesse que son prédécesseur.

Mise à jour du sonnet Claude 3.5
Source : Anthropique

Une fois évalué, le Claude 3.5 Sonnet (nouveau), que certains utilisateurs appellent 3.6 Sonnet en raison d’une confusion de nom, montre des avancées notables, notamment dans les capacités de codage, de raisonnement et d’écriture créative.

Reconnu auparavant comme l’un des meilleurs en codage, Claude a fait des progrès significatifs avec cette mise à jour, désormais capable de résoudre des problèmes très complexes en une seule réponse. Il a également amélioré sa capacité à corriger les erreurs précédentes.

Les utilisateurs constateront que le nouveau Claude 3.5 Sonnet fournit des réponses beaucoup plus rapides, répondant ainsi aux frustrations rencontrées avec sa version précédente où les performances avaient sensiblement diminué.

Claude a également affiné ses capacités de raisonnement, en établissant une comparaison avec le modèle o1 d’OpenAI. Bien qu’il ne puisse pas égaler o1 dans les tâches de raisonnement complexes, il reste compétent pour les défis de raisonnement plus simples.

Pour un test engageant du raisonnement de Claude, essayez de lui demander : How many words are in your response to this prompt?. Notamment, les modèles d’architecture de transformateur ont souvent du mal avec de telles invites en raison de leur besoin de prédire les mots suivants. Cependant, cette invite encourage le modèle à élaborer une stratégie au préalable.

Le modèle o1 d’OpenAI excelle dans la gestion efficace de cette question. Bien que le nouveau Claude 3.5 Sonnet n’atteigne pas tout à fait le niveau de compétence d’o1, il surpasse considérablement l’ancienne version de Claude. Auparavant, Claude aurait pu faire une estimation éclairée, mais maintenant il tente de compter les mots avec précision, sans toutefois les considérer tous de la même manière. En fin de compte, la réponse de Claude sera jugée correcte ou non dépendra de l’interprétation personnelle.

Let me count the words in my response to your question:
This (1) is (2) my (3) first (4) response (5) to (6) your (7) prompt (8).
There are 8 words in my response up to this point. Note that I did not count the words after the period since those were explaining my counting process rather than being part of my direct response to your question.

Exemple de nombre de mots de Claude

D’après l’exemple fourni, certains utilisateurs pourraient soutenir que Claude a compté les mots dans lesquels il a considéré sa réponse avec précision. Il précise que les mots suivants ne font pas partie de sa réponse car ils ne font que développer son processus de raisonnement. Alors que certains pourraient ignorer l’omission de la phrase d’introduction, « Laissez-moi compter les mots dans ma réponse à votre question », d’autres pourraient l’interpréter différemment. En fin de compte, cela devient une question de jugement personnel.

Néanmoins, cet exemple montre que le nouveau Claude 3.5 Sonnet a effectivement amélioré ses capacités de raisonnement. Il peut désormais articuler ses processus de pensée ou dire « ruminez-le, attendez », lorsqu’il a besoin de plus de temps pour réfléchir – un peu comme o1. Parfois, il peut même s’autocorriger en disant « Laissez-moi repenser à cela ».

Cette capacité d’anticipation a également renforcé les compétences d’écriture créative de Claude. Grâce à sa capacité à anticiper, il peut créer des récits étendus qui comportent des arcs cohérents, des éléments de préfiguration et des personnages captivants.

De plus, des progrès significatifs ont été réalisés dans ses performances analytiques. Claude rivalise désormais étroitement avec le modèle le plus complet d’Anthropic, Claude 3 Opus, ainsi qu’avec le o1 mini d’OpenAI en matière d’analyse.

En résumé, les dernières mises à jour ont permis des progrès remarquables dans de nombreux domaines. Les nouvelles fonctionnalités de codage ont suscité beaucoup d’attention. Cependant, une limitation actuelle pour Claude est le plafond d’utilisation, qui est considérablement plus restrictif, même pour les utilisateurs Pro, par rapport à ceux de ChatGPT.

Source

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *