Trois raisons pour lesquelles le nouveau modèle de DeepSeek est important

En termes de performances, la V4 représente, sans surprise, un énorme bond par rapport à la R1 – et elle semble être une alternative solide à presque tous les derniers grands modèles d’IA. Sur les principaux benchmarks, selon les résultats partagés par la société, DeepSeek V4-Pro est en concurrence avec les principaux modèles à source fermée, égalant les performances de Claude-Opus-4.6 d'Anthropic, du GPT-5.4 d'OpenAI et du Gemini-3.1 de Google. Et comparé à d'autres modèles open source, tels que le Qwen-3.5 d'Alibaba ou le GLM-5.1 de Z.ai, DeepSeek V4 les dépasse tous en termes de codage, de mathématiques et de problèmes STEM, ce qui en fait l'un des modèles open source les plus puissants jamais publiés.

DeepSeek indique également que V4-Pro se classe désormais parmi les modèles open source les plus puissants sur les tests de performances pour les tâches de codage agent et fonctionne bien sur d'autres tests qui mesurent la capacité à résoudre des problèmes en plusieurs étapes. Sa capacité rédactionnelle et sa connaissance du monde sont également en tête dans le domaine, selon les résultats d'analyse comparative partagés par l'entreprise.

Dans un rapport technique publié parallèlement au modèle, DeepSeek a partagé les résultats d'une enquête interne auprès de 85 développeurs expérimentés : plus de 90 % ont inclus le V4-Pro parmi leurs meilleurs choix de modèles pour les tâches de codage.

DeepSeek affirme avoir spécifiquement optimisé la V4 pour les frameworks d'agents populaires tels que Claude Code, OpenClaw et CodeBuddy.

2. Il propose une nouvelle approche de l’efficacité de la mémoire.

L'une des innovations clés de la V4 est sa longue fenêtre contextuelle : la quantité de texte que le modèle peut traiter en même temps. Les deux versions peuvent gérer 1 million de jetons, ce qui est suffisamment grand pour contenir les trois volumes de Le Seigneur des Anneaux et Le Hobbit combiné. La société affirme que cette taille de fenêtre contextuelle est désormais la taille par défaut dans tous les services DeepSeek et correspond à ce qui est proposé par les versions de pointe de modèles comme Gemini et Claude.

Mais il est important de savoir non seulement que DeepSeek a franchi ce pas, mais aussi comment c'est ce qu'il a fait. La V4 apporte des changements architecturaux importants aux anciens modèles de l'entreprise, en particulier dans le mécanisme d'attention, qui est la caractéristique des modèles d'IA qui les aide à comprendre chaque partie d'une invite par rapport au reste. À mesure que le texte d’invite s’allonge, ces comparaisons deviennent beaucoup plus coûteuses, faisant de l’attention l’un des principaux goulots d’étranglement pour les modèles à contexte long.

Latour Eiffel

Trois raisons pour lesquelles le nouveau modèle de DeepSeek est important

2. Il propose une nouvelle approche de l’efficacité de la mémoire.

Développement professionnel pour les enseignants : des ressources qui vous engageront vraiment

L'Academy of Country Music nomme Andy Schuon, ancien directeur de MTV et REVOLT TV, au poste de PDG

Techmeme : AMD et Anthropic signent un accord de serveur IA d'une valeur de plusieurs dizaines de milliards ; Anthropic achètera jusqu'à 2 GW de puces MI450 à partir du premier semestre 2027 et AMD investira 5 milliards de dollars dans Anthropic (Wall Street Journal)

Pete Hegseth est détruit lors d'une audience au Sénat alors qu'il implore plus d'argent de guerre