Claude 4 : Anthropic affine ses LLM pour les développeurs
Selon la startup, Opus 4 aide à effectuer des tâches de programmation de longue durée, et Sonnet 4 remplace Sonnet 3.7. Pour les analystes, les modèles confirment une tendance sur le marché de la GenAI : les modèles de raisonnement hybrides vont durablement infuser les usines logicielles.
Le fournisseur de modèles d’IA Anthropic a présenté le 22 mai Claude Opus 4 et Claude Sonnet 4.
Cette annonce intervient alors que les concurrents d’Anthropic, notamment OpenAI, Mistral, Google et Meta, ont récemment dévoilé une série de nouveaux LLM.
Programmation, raisonnement, agents IA : les atouts de Claude 4, selon Anthropic
Claude Opus 4 et Sonnet 4 sont des modèles de vision-langage hybrides qui peuvent fournir des réponses dites « raisonnées » ou instantanées. Ils sont dotés d’une fenêtre de contexte de 200 000 tokens. Opus 4 peut générer jusqu’à 32 000 tokens. Sonnet 4 peut en produire le double. La date limite des données d’entraînement (majoritairement issu du Web) est mars 2025 pour Opus 4 et octobre 2024 pour Sonnet 4.
Depuis l’application Claude.ai, les modèles sont accessibles à tous les abonnés payants, et les abonnés gratuits peuvent accéder à Claude Sonnet 4.
Les deux modèles Claude 4 sont disponibles sur l’API d’Anthropic, Amazon Bedrock et Vertex AI de Google. Opus 4 est facturé 15 dollars en entrée pour 1 million de tokens et 75 dollars pour un million de tokens en sortie. Sonnet 4 coûte 3 dollars pour 1 million de tokens en entrée, et 15 dollars en sortie. Pas de changement par rapport à Claude 3.7, mais la tarification est plus élevée en moyenne que celles des concurrents.
La nouvelle génération de modèles d’Anthropic arrive plus d’un an après que le fournisseur a lancé la génération précédente de Claude et trois mois après avoir lancé Claude 3,7 Sonnet et Claude Code.
Claude Opus 4 est un modèle dédié à la programmation qui peut maintenir ses performances sur des tâches complexes et de longue durée. Il peut également exécuter des flux de travail propulsant les agents IA. Lors du test d’Opus 4, le modèle a démontré qu’il était capable d’effectuer environ sept heures de travail de programmation en autonomie, selon Anthropic.
Claude Sonnet 4 remplace Claude 3.7 Sonnet et inclut, lui aussi, des capacités de programmation et de raisonnement.
« Avec Claude 4, et avec Opus 4 en particulier, nous voulons établir de nouvelles normes pour la programmation, le raisonnement avancé en général et les agents IA ».
Alex AlbertResponsable des relations avec les développeurs, Anthropic
« Ce que nous essayons de faire avec ces modèles, c’est de continuer à repousser les limites », vante Alex Albert, responsable des relations avec les développeurs chez Anthropic. « Avec Claude 4, et avec Opus 4 en particulier, nous voulons établir de nouvelles normes pour la programmation, le raisonnement avancé en général et les agents IA ».
Au-delà des modèles, Anthropic a dévoilé de nouvelles capacités. La réflexion étendue avec utilisation d’outils permet désormais aux deux modèles d’effectuer des recherches Web tout en menant une analyse approfondie.
Aussi, les modèles ne présentent plus forcément le processus de réflexion complet de Claude, mais proposent des synthèses de leur raisonnement. Ces résumés sont rarement effectués, selon l’éditeur.
« D’après notre expérience, seulement 5 % des processus de pensée sont suffisamment longs pour déclencher ce résumé », expliquent les chercheurs d’Anthropic. « […] Les développeurs qui souhaitent que les processus de pensée soient affichés dans leur intégralité sans être résumés peuvent opter pour un mode développeur ».
Le fournisseur a également lancé quatre nouvelles fonctionnalités sur l’API Anthropic en direction des développeurs. Sans surprise, Claude 4 prend en charge le protocole open source MCP (Model Context Protocol). En sus d’un outil d’exécution de code, Anthropic a présenté l’API « Files » qui permet de télécharger des fichiers et les soumettre à ses LLM « sans les retélécharger » et un moyen de mettre en cache les instructions pendant une heure.
Convaincre ceux qui influencent les décisions d’achat IT
Selon Bradley Shimmin, analyste chez Futurum Group, l’approche d’Anthropic démontre que la startup ne se concentre pas uniquement sur l’obtention de scores élevés dans les benchmarks génériques. Elle chercherait à résoudre des problèmes concrets « avec transparence, capacité d’observation et clarté concernant la façon dont les modèles prennent leurs décisions ».
Il ajoute que les développeurs savent depuis plus d’un an que les modèles Claude s’illustrent dans le domaine du génie logiciel. Par conséquent, la capacité d’Opus 4 à lire du code pendant une longue période « marque un nouveau départ sur le marché de la GenAI ».
« Ces modèles vont être utilisés en complément pour aider les entreprises à résoudre des problèmes très complexes qu’elles ont toujours rencontrés en matière de maintenance de codes complexes ».
Bradley ShimminAnalyste, Futurum Group
« Nous allons commencer à voir ces modèles faire bien plus que de la simple complétion et de la documentation de code », note Bradley Shimmin. « Ils vont être utilisés en complément pour aider les entreprises à résoudre des problèmes très complexes qu’elles ont toujours rencontrés en matière de maintenance de codes complexes ».
Cela signifie que des modèles tels qu’Opus 4 pourraient déboucher sur davantage d’applications que le simple raisonnement par chaîne de pensée, poursuit-il.
Une autre caractéristique importante d’Opus 4 est la possibilité de passer du « mode réflexion » au « mode utilisation de l’outil », selon Andy Thurai, PDG et fondateur de The Field CTO.
« Il s’agit d’un passage important d’un modèle de contexte de dialogue unique à des agents intelligents qui peuvent passer d’un mode à l’autre en fonction des besoins », avance-t-il. D’autres LLM sont dotés de la même capacité, dont ceux de DeepSeek et d’OpenAI.
Ces initiatives montrent également une tendance chez Anthropic et d’autres concepteurs de modèles, comme Google avec sa collection Gemini, dans laquelle les LLM ne se contentent pas d’effectuer des tâches, mais deviennent également des collaborateurs.
« Nous commençons à voir moins de requêtes comme “aide-moi à coder quelque chose” et plus de “aide-moi à concevoir ou à comprendre le problème” – à conceptualiser une solution, à concevoir cette solution et à commencer à la mettre en œuvre », affirme Bradley Shimmin.
Par rapport à des concurrents comme OpenAI et Google, qui publient des versions plus fréquentes, Anthropic semble adopter ce que certains pourraient considérer comme une approche mesurée, ajoute-t-il.
« Cela peut convenir à une entreprise comme Anthropic, car ce qui compte pour elle, ce n’est pas de conserver la notoriété », avance-t-il. « Il s’agit plutôt de jouer sur le bouche-à-oreille et sur les préférences de ceux qui influencent les décisions d’achat ».
Cela peut aussi s’expliquer par l’exécution de phases d’évaluation plus approfondies. Le document qui accompagne le lancement de Claude 4 fait 123 pages et rapporte quasi exclusivement les résultats liés aux hallucinations et à la résistance aux cyberattaques.
En la matière, « plusieurs de nos partenaires externes ont indiqué que Claude Opus 4 avait des performances qualitativement distinctes de celles de tous les modèles qu’ils avaient testés auparavant », assure Anthropic. « En revanche, Claude Sonnet 4 a montré des améliorations plus modestes […] », conclut le rapport..
Pour approfondir sur IA appliquée, GenAI, IA infusée