J’ai récemment testé le nouveau modèle 3.5 Sonnet de Claude, qui est le modèle d’IA le plus puissant d’Anthropic à ce jour, et qui, selon l’entreprise, peut surpasser ses concurrents comme ChatGPT d’OpenAI. C’est une affirmation audacieuse, qu’Anthropic appuie avec des benchmarks assez impressionnants.
Le nouveau modèle possède également des capacités de vision, vous permettant de lui fournir des images et des documents et d’en extraire des informations. Et il peut mieux comprendre les émotions comme l’humour tout en étant beaucoup plus rapide. Tous ces éléments font de Claude 3.5 un concurrent majeur du nouveau ChatGPT propulsé par GPT-40, qui est également un modèle d’IA multimodal.
Comme Sonnet, ChatGPT-40 peut utiliser des entrées basées sur la vision en plus des entrées basées sur le texte pour fournir des réponses. Il est tout aussi efficace pour résoudre les problèmes et possède des capacités conversationnelles similaires. Étant donné que les deux nouveaux modèles sont si proches l’un de l’autre en termes de capacités et de performances, la question qui se pose à tous est de savoir lequel des deux est le meilleur ? Pour répondre à cette question, j’ai décidé de comparer les deux modèles en détail.
Extraire des informations à partir de documents
Les outils d’IA sont souvent utilisés pour extraire des informations de documents tels que des fichiers PDF, puis les résumer. J’ai donc décidé de vérifier d’abord lequel des deux modèles pouvait le faire le plus efficacement. Pour cela, j’ai préparé un document PDF sur les carrés de toiture que j’avais écrit il y a quelque temps et je l’ai téléchargé sur ChatGPT et Claude.
Ensuite, je leur ai demandé : « summarize this document and provide me with the most important points discussed in it.
Voici ce que j’ai découvert. » Le nouveau modèle Claude était beaucoup plus rapide que ChatGPT et commençait à générer sa réponse immédiatement après que j’ai soumis ma demande. Il suivait également l’invite de plus près, en énumérant les points importants dans une liste numérotée. Si vous manquez de temps et que vous souhaitez simplement jeter un œil au contenu d’un document, c’est ce qu’il vous faut.
Cependant, bien que plus lent que Claude, j’ai préféré la réponse de ChatGPT dans ce cas. Il a non seulement répertorié les points les plus importants du document, mais les a également divisés en différentes sections, telles que Définition et Importance, Calcul, etc.
Si vous avez besoin de trouver des informations spécifiques concernant un aspect particulier du sujet abordé dans un document, la méthode de ChatGPT semble plus utile. Vous n’avez pas besoin de parcourir tous les points et vous pouvez simplement consulter la section nécessaire. Les informations sont fournies d’une manière plus facile à parcourir et à digérer.
Tester les capacités de vision
L’un des points forts de Claude 3.5 et de ChatGPT-40 étant leur capacité à utiliser des données visuelles et à fournir des informations en fonction de celles-ci, j’ai décidé de tester cette possibilité en leur demandant de suivre des instructions manuscrites après les avoir transcrites. J’ai demandé aux modèles d’IA d’écrire un court poème similaire à « La fourmi et le grillon » d’Ésope.
Bien que je ne l’aie pas précisé par écrit, je voulais que le résultat soit inspiré du poème mais avec des personnages différents. Claude m’a d’abord demandé de confirmer ma demande manuscrite, puis a procédé à sa rédaction. Le résultat était plutôt bon, très proche du poème original, mais avec les mêmes personnages. Le chatbot IA m’a également demandé si je souhaitais une approche différente ou des modifications du poème une fois celui-ci terminé.
ChatGPT ne m’a pas demandé de confirmer ma demande mais a immédiatement procédé à sa réalisation. Le poème qu’il a écrit était également très impressionnant, et il a remplacé la fourmi et le grillon de la création originale par une abeille et un papillon, ce que Claude n’avait pas fait. J’ai également trouvé la version de ChatGPT plus poétique.
En ce qui concerne la transcription, les résultats sont légèrement différents, mais les deux outils peuvent très bien déchiffrer et comprendre des textes manuscrits et imprimés, même si les images ne sont pas très claires. Ces puissantes capacités visuelles vous permettent également d’utiliser ces outils pour extraire des informations à partir de graphiques et de diagrammes, ce qui les rend adaptés aux tâches mathématiques.
Description des images : Étant donné que les deux modèles peuvent également extraire des informations des images, j’ai dû l’essayer également. J’ai fourni à Claude et ChatGPT une image d’une île tropicale et leur ai demandé de la décrire. Comme vous pouvez le voir, Claude fournit une description vivante de l’image, décrivant très clairement chaque élément du premier plan et de l’arrière-plan, même ceux que je n’ai pas remarqués moi-même.
Le choix des phrases et des mots de Claude pour décrire l’image est également plus percutant, rendant justice à l’image. Il décrit très bien les couleurs, l’éclairage et transmet le sentiment général de sérénité et de tranquillité que l’image génère.
Les résultats sont plus compliqués dans le cas de ChatGPT, qui peut décrire des images, mais pas aussi bien que celui de Claude. Le modèle d’OpenAI a tendance à faire des erreurs, en ajoutant des éléments qui ne sont pas présents, ce qui montre qu’il peut toujours avoir des hallucinations. De plus, au début, il essayait constamment de décrire l’image en se basant sur son titre plutôt que sur ce qu’elle représentait, pour finalement y parvenir après plusieurs tentatives.
Même à ce moment-là, la description que j’en ai obtenue n’était pas à la hauteur de la réponse de Claude. C’était assez surprenant puisque les capacités de vision du GPT-40 étaient l’un des points forts d’OpenAI lors de son lancement.
Générer et éditer du contenu
Ensuite, j’ai essayé de voir quel modèle s’en sortait le mieux en termes de génération de contenu. Pour avoir une idée claire de leurs performances, j’ai décidé de générer du contenu qui nécessite des faits et des données réels, ainsi que du contenu fictif qui s’appuierait sur la créativité du modèle d’IA.
Tout d’abord, j’ai demandé à Claude et ChatGPT de me fournir un article détaillé sur les différents skins Android, car c’est quelque chose que beaucoup de gens veulent savoir mais c’est un sujet très subjectif, chaque individu ayant son propre favori. J’ai utilisé l’invite Can you write a detailed article on the different Android skins, such as OneUI, MIUI, ColorOS, etc.?
Étant donné le temps que nous passons avec nos smartphones, je voulais savoir à quel point les modèles étaient précis et combien d’informations ils pouvaient fournir sur chaque skin.
Comme d’habitude, Claude a été plus rapide à fournir une réponse. Il a fourni un aperçu expliquant ce que sont les skins Android, ce qui est bien, mais a ensuite simplement procédé à la liste des différents skins avec les fonctionnalités qu’ils offrent dans une liste à puces. Gardez à l’esprit que le modèle a fourni ce résultat même si j’ai spécifiquement indiqué un « article détaillé » dans mon message.
En revanche, ChatGPT a créé un titre plus impressionnant pour l’article et a inclus une brève introduction. Ensuite, il a expliqué chaque skin dans sa propre section, en divisant chacun d’eux en un aperçu, des fonctionnalités clés, des avantages et des inconvénients.
Non seulement cela fournit des informations plus complètes, mais cela vous permet également de savoir exactement comment les différents skins se comparent les uns aux autres. Enfin, cela termine l’article avec une conclusion appropriée. Bien que le nombre de skins mentionnés par ChatGPT soit inférieur à ceux répertoriés par Claude, ici la qualité compte plus que la quantité.
Bien que ChatGPT ait obtenu de meilleurs résultats que Claude dans ce cas, ce dernier peut également générer du bon contenu, comme je l’ai constaté lors de mes tests précédents. Cela peut dépendre du sujet ou de la manière dont vous formulez votre invite. C’est pourquoi j’ai donné aux deux modèles une autre invite, cette fois en utilisant l’invite. Write a humorous story about a penguin that wants to fly but ends up getting entangled into funny situations when it attempts to do so.
Cela m’a également donné l’occasion de voir à quel point les modèles comprennent et peuvent transmettre l’humour.
Cette fois, les résultats étaient très proches, les deux modèles créant des histoires vraiment hilarantes. Les deux histoires avaient des éléments communs, comme l’ironie et la comédie physique. En fiction, la préférence personnelle est un facteur puissant et, dans l’ensemble, j’ai trouvé la production de Claude légèrement meilleure, en particulier la façon dont il jouait avec les mots pour générer de l’humour.
Mais comme je l’ai mentionné auparavant, l’histoire de ChatGPT était également amusante à lire et était légèrement plus longue que celle de Claude. Sa fin était également plus saine. Ainsi, Claude et ChatGPT ont pu générer un bon contenu fictif tout en incluant des éléments humoristiques comme je le leur avais demandé.
Édition de contenu : la génération de contenu n’est qu’une partie du processus. Pour vraiment découvrir ce qu’un modèle d’IA peut faire en matière de contenu, vous devez également tester ses capacités d’édition de contenu, ce que j’ai fait. À cette fin, j’ai fourni un texte sur le commerce social à Claude et ChatGPT et je leur ai donné l’invite suivante :Can you expand this article while also proofreading and improving it?
Pour améliorer l’article, Claude a commencé par une introduction, puis a écrit sur l’évolution du commerce social, et a finalement enchaîné avec d’autres sections, en développant chacune d’elles comme il le jugeait nécessaire. Le modèle a également utilisé des listes numérotées et des puces là où il le jugeait nécessaire pour améliorer la lisibilité.
La réponse de ChatGPT était similaire à ses précédentes, où il divisait le contenu en plusieurs sections avec différents sous-titres. Il n’utilisait aucune liste mais conservait les informations sous forme de paragraphes. En ce qui concerne les changements et les améliorations, j’ai remarqué que Claude avait apporté des modifications plus drastiques à l’article que ChatGPT, mais le résultat final était également bien meilleur. En fin de compte, j’ai trouvé que les capacités d’édition de Sonnet étaient plus puissantes et bien mieux adaptées à mon flux de travail.
Capacité de codage
Aucune comparaison entre les modèles d’IA n’est complète sans inclure leurs capacités de codage. Si Claude a été spécialement développé pour aider les programmeurs à écrire un meilleur code rapidement et facilement, le nouveau ChatGPT, basé sur GPT-40, n’est pas non plus à négliger en matière de codage.
Pour tester leur capacité à générer du code, j’ai demandé à Claude et à ChatGPT de Generate code for a simple game that can help beginners learn programming.
Pendant que tous deux écrivaient le code en Python, Claude a terminé la génération de code plus rapidement, comme prévu. Il a affiché l’intégralité du code sur le côté droit de l’écran tout en expliquant des éléments comme les fonctions et les variables sur la gauche.
Ce que j’ai le plus apprécié dans la réponse de Claude, c’est qu’elle incluait également un bouton qui permettait d’accéder instantanément au code, afin de pouvoir le consulter facilement. De plus, le chatbot m’a informé des exigences nécessaires à l’exécution du code, avec des instructions complètes. Quant au code lui-même, il était assez facile à comprendre et fonctionnait également parfaitement bien lorsque je l’ai testé.
En ce qui concerne la réponse de ChatGPT, il a également été capable de générer un code simple mais fonctionnel, comme je l’avais demandé. Sous le code, le chatbot a fourni les étapes nécessaires pour exécuter le jeu ainsi que les concepts couverts par le code, ce qui le rend facile à comprendre pour les débutants. Dans l’ensemble, les résultats étaient assez similaires pour les deux modèles dans ce cas, bien que Claude ait expliqué plus d’éléments et ait eu une option par laquelle vous pouviez lui demander d’expliquer n’importe quelle partie du code en détail.
Compétences mathématiques
Enfin, j’ai donné à Claude et ChatGPT une question de mathématiques à résoudre, pour voir comment ils s’en sortaient et lequel était le plus rapide. La question impliquait des équations algébriques mais n’était pas particulièrement difficile. Les deux modèles ont commencé par expliquer ce qu’il fallait faire dans la première étape, bien que leur approche soit différente. Claude a ensuite développé l’équation et m’a finalement dit que pour résoudre complètement le problème, il fallait utiliser une calculatrice graphique ou un système d’algèbre informatique.
Cela dit, il a indiqué le nombre de solutions potentielles au problème. En revanche, ChatGPT a résolu le problème dans son intégralité et m’a donné toutes les solutions possibles. Cela indique qu’en ce qui concerne les capacités mathématiques, ChatGPT-4o est en avance sur Sonnet.
Verdict final – Claude Sonnet 3.5 ou ChatGPT-4o : Qui a gagné ?
Choisir entre Claude 3.5 et ChatGPT-4o n’est pas facile, mais au final, un seul peut être gagnant, et pour moi, ce doit être le nouveau modèle Sonnet. Non seulement il est nettement plus rapide que ChatGPT, mais il fournit également des réponses plus précises. J’ai particulièrement apprécié la façon dont il pouvait décrire les images et effectuer des actions les concernant.
Claude n’a pas eu d’hallucinations une seule fois pendant mon temps d’utilisation, ce qui est un autre point en sa faveur, et ses réponses étaient globalement plus proches de mes instructions. Même s’il n’a pas fonctionné comme je l’espérais dans un cas où je voulais un contenu détaillé, l’utiliser pour obtenir les informations que je voulais était généralement plus facile et demandait moins d’efforts.
En testant Claude 3.5 Sonnet et ChatGPT-40, j’ai découvert que les deux modèles d’IA sont exceptionnellement bons et très proches en termes de performances. Alors que Sonnet exécute mieux certaines tâches, ChatGPT fournit de meilleurs résultats dans d’autres. Vous devez comprendre que déterminer lequel est le meilleur dépendra de votre cas d’utilisation individuel.
De plus, les deux modèles gratuits sont limités dans leurs possibilités. Par conséquent, si vous souhaitez utiliser l’une ou l’autre IA régulièrement, je vous recommande de souscrire un abonnement payant pour obtenir les meilleurs résultats.
Laisser un commentaire