December 28, 2024
DeepSeek V3 : la révolution de l'IA open source
DeepSeek fait sensation dans la communauté de l'IA avec son dernier modèle, DeepSeek-v3. Ce n'est pas juste une autre itération ; c'est une force puissante qui agit activement surpassant de nombreux modèles d'IA haut de gamme, en particulier ceux qui se tiennent à huis clos. Oubliez l'idée d'une IA open source qui joue un rôle secondaire : DeepSeek-v3 établit une nouvelle référence et trace sa propre voie.
Ce qui distingue vraiment DeepSeek-V3, c'est sa remarquable vitesse et efficacité, traitant les informations à un rythme effréné 60 jetons par seconde - une multiplication par trois par rapport à son prédécesseur. Mais ce n'est pas seulement un démon de la vitesse ; c'est aussi une centrale polyvalente capable de gérer des tâches complexes de codage et maths pour traitement de texte, qui s'est révélé être un outil à multiples facettes dans le domaine numérique.
Ce qui est peut-être le plus surprenant, c'est que DeepSeek-V3 est complètement open source et gratuit. Disponible via une API, un site Web de discussion ou pour un déploiement local, avec ses prix incroyablement compétitifs, elle se positionne comme la solution idéale pour tous ceux qui recherchent IA de pointe sans vous ruiner.
I. Architecture et détails techniques de DeepSeek V3
Architecture mixte d'experts (MoE)
DeepSeek-V3 utilise un Mélange d'experts (MoE) l'architecture, qui est un facteur clé de sa performance et efficacité. Cette architecture est composée de réseaux neuronaux multiples, chacun étant optimisé spécifiquement pour différentes tâches.
Lorsque DeepSeek-v3 reçoit une invite, un composant appelé routeur dirige intelligemment la demande vers le réseau neuronal le mieux adapté pour la traiter. Ce activation sélective des réseaux neuronaux c'est ce qui rend l'architecture du MoE si efficace, car il réduit les coûts matériels en utilisant uniquement les ressources nécessaires à une tâche donnée. Chacun de ces réseaux neuronaux individuels au sein de la structure MoE possède 34 milliards de paramètres.
Paramètres
DeepSeek-v3, véritable mastodonte du monde de l'IA, possède un total de 671 milliards de paramètres, un chiffre qui se réduit légèrement à 37 milliards paramètres actifs pour chaque jeton pendant le traitement, presque comme s'il activait son alimentation de manière sélective. Pourtant, lorsque vous y accédez via le Visage étreignant plateforme, la taille colossale du modèle s'étend mystérieusement à 685 milliards de paramètres, une différence subtile attribuée à l'ajout du Prédiction multi-jetons (MTP) poids des modules.
Les 671 milliards de paramètres impressionnants du modèle de base sont ensuite renforcés par le module MTP, en ajoutant un autre 14 milliards à son poids, atteignant ainsi le nombre apparemment impossible qui est 685 milliards; dans un affichage d'échelle époustouflant, cela signifie que DeepSeek-V3 tourne à peu près 1,6 fois la taille du modèle Llama 3.1 405B déjà massif de Meta, une comparaison qui met vraiment sa magnitude en perspective.
Données d'entraînement
Les capacités impressionnantes du modèle sont soutenues par la grande quantité de données il a été formé. DeepSeek-v3 a été entraîné sur un ensemble de données de 14,8 billions de jetons. En particulier, en science des données, les jetons sont utilisés pour représenter des bits de données brutes, avec 1 million de jetons équivalant à environ 750 000 mots.
Attention latente à plusieurs têtes (MLA)
DeepSeek-v3 utilise une technique appelée attention latente à plusieurs têtes (MLA), qui est une version améliorée du mécanisme d'attention qui est couramment utilisé dans les grands modèles de langage. Les mécanismes d'attention aident les modèles à identifier les parties les plus importantes d'une phrase. MLA améliore cela en permettant au modèle d'extraire les détails clés d'un morceau de texte plusieurs fois au lieu d'une seule fois. Cela signifie que le modèle est moins susceptible de manquer des informations cruciales, ce qui le rend plus précis.
Prédiction multi-jetons
Les modèles linguistiques classiques génèrent du texte un jeton à la fois. Cependant, en revanche, DeepSeek-v3 génère plusieurs jetons à la fois. Ce prédiction multi-jetons caractéristique significative accélère le processus d'inférence, c'est-à-dire le temps nécessaire au modèle pour générer du texte. En outre, cette méthode peut également être utilisée pour décodage spéculatif, ce qui peut encore accélérer l'inférence.
Cadre d'entraînement de précision mixte FP8
DeepSeek-V3 a été entraîné à l'aide d'un 8ÈME SÉANCE cadre d'entraînement de précision mixte. C'était la première fois que ce cadre était utilisé sur un modèle d'une telle envergure, et il s'est avéré à la fois faisable et efficace. Le FP8 (virgule flottante 8 bits) est un format numérique plus compact que les formats 16 bits ou 32 bits habituels. Cela signifie qu'il nécessite moins de mémoire et peut considérablement accélérer les calculs.
Efficacité de la formation
Le processus de formation de DeepSeek-V3 était remarquable efficace. La phase de pré-formation de DeepSeek-v3 est requise uniquement 2,664 millions d'heures de processeur graphique H800. Les étapes de formation suivantes après la formation préalable sont requises uniquement 0,1 million d'heures GPU. DeepSeek a pu entraîner le modèle à l'aide d'un centre de données de 2048 GPU en à peine deux mois. L'entreprise affirme qu'elle n'a dépensé que 5,5 millions de dollars pour entraîner DeepSeek-V3. Il s'agit d'un coût nettement inférieur à celui de certains autres modèles similaires.
Par exemple, Llama 3 405B a utilisé 30,8 millions d'heures de GPU, soit environ 11 fois le calcul de DeepSeek-v3. Cette réalisation démontre qu'il est possible de former de grands modèles de langage avec moins de calcul qu'on ne le pensait auparavant, ce qui pourrait ouvrir la voie à plus de efficace et développement abordable de l'IA. L'approche de DeepSeek met en évidence la manière dont les avancées en matière d'algorithmes et de données peuvent réduire le besoin de très grands clusters de GPU.
Capacités de raisonnement
DeepSeek a également intégré capacités de raisonnement avancées dans DeepSeek-V3. Le modèle distille ses capacités de raisonnement à partir de DeepSeek R1 série de modèles. Le pipeline de DeepSeek intègre les modèles de vérification et de réflexion de R1 dans DeepSeek-v3. Cela se traduit par une amélioration des performances de raisonnement pour DeepSeek-V3.
Maintenant que nous avons exploré les fondements techniques de DeepSeek V3, concentrons-nous sur ses performances et ses résultats de référence, afin de voir comment ces innovations techniques se traduisent en fonctionnalités réelles.
II. Performances et critères
Les chiffres sont connus, et DeepSeek-v3 n'est pas seulement impressionnant, c'est un sérieux concurrent. Il ne se contente pas de faire correspondre d'autres modèles, il est actif surperformant de nombreuses alternatives open source et même se démarquant des principaux concurrents du domaine du code source fermé. Et, comme mentionné, il est également ultrarapide, traitant 60 jetons par seconde, ce qui est trois fois plus vite que DeepSeek V2.
DeepSeek-v3 intègre des fonctionnalités avancées qui améliorent ses performances.
- Il utilise un Architecture mixte d'experts (MoE) avec 671 milliards de paramètres, avec 37 milliards activés par jeton. Cela permet un traitement efficace en activant uniquement une partie du réseau pour chaque tâche.
- Il utilise Attention latente à plusieurs têtes (MLA) pour extraire plusieurs fois les détails clés du texte, améliorant ainsi sa précision.
- Il intègre également Prédiction multi-jetons pour générer plusieurs jetons à la fois, ce qui accélère l'inférence.
Le modèle a été entraîné sur 14,8 billions de jetons et affiche de solides performances sur divers points de référence.
DeepSeek-v3 démontre sa forte aptitude à relever les défis de programmation compétitifs, surpassant Claude-3.5 Sonnet sur le benchmark Codeforces. Il excelle dans Test polyglot Aider, démontrant sa capacité à intégrer du nouveau code au code existant. D'après les résultats, nous pouvons dire que les plus performants sont :
- o1-2024-11-12 (Tingli) est en tête de la référence avec une précision de près de 65 % sur l'ensemble du format, affichant des performances exceptionnelles pour toutes les tâches.
- Aperçu de DeepSeek Chat V3 et Claude-3.5 Sonnet-2024-1022 suivent de près, avec des scores compris entre 40 et 50 %, démontrant une bonne exécution des tâches dans les deux formats.
DeepSeek V3 obtient également un score de 88,5 sur l'indice de référence MMLU, légèrement en retrait Lama3.1, mais surperformant Qwen 2,5 et Claude-3.5 Sonnet. Il obtient également un score de 91,6 sur l'indice de référence DROP, surpassant les mêmes modèles, démontrant ainsi ses solides capacités de raisonnement.
Le modèle peut traiter des longueurs de fenêtres contextuelles allant jusqu'à 128 Ko et intègre également Entraînement de précision mixte FP8 pour l'efficacité de l'entraînement.
Les performances de DeepSeek V3 sont impressionnantes, mais pour être vraiment utile, un modèle d'IA doit être accessible. La section suivante explorera comment DeepSeek V3 est mis à la disposition des utilisateurs.
III. Accessibilité et utilisation
Les performances ne signifient pas grand-chose si un modèle est enfermé derrière un mur impénétrable. Heureusement, DeepSeek-v3 donne la priorité à l'accessibilité :
Source ouverte : Vous pouvez récupérer le code et le modifier à votre guise sur GitHub, et les poids des modèles sont facilement disponibles sur Visage étreignant. Cela signifie qu'il peut être utilisé pour une pléthore de applications y compris des projets commerciaux.
Accès à l'API : DeepSeek propose une API qui est compatible avec l'API d'OpenAI, ce qui facilite l'intégration aux systèmes existants.
Site Web de chat : Vous pouvez accéder au site Web DeepSeek et discuter directement avec V3, aucun codage ou API requis.
Rôles profonds : Considérez-le comme des compagnons d'IA personnalisés : Deep Roles permettra aux utilisateurs de créer les leurs ou d'explorer des rôles créés par d'autres, similaire à Custom GPT.
Vous pouvez également déployer DeepSeek-v3 localement. Il est recommandé d'utiliser 8 GPU H200s, mais vous pouvez les déployer sur d'autres matériels, notamment NVIDIA, AMD et Huawei Ascend. De nombreuses options logicielles open source vous permettent également de le faire, telles que DeepSeek-Infer Demo, SGlang, LMDeploy, TensorRT-LLM et vLLM. Cela montre que adaptabilité sur différentes plateformes.
DeepSeek-v3 excelle également dans diverses tâches basées sur du texte. Il est excellent pour le codage, les traductions et la génération de contenu. Toutes ces tâches sont rendues possibles grâce à son efficacité en matière de traitement de texte.
IV. Coûts d'inférence
La structure tarifaire de l'API reflète celle de DeepSeek V2 jusqu'au 8 février 2025. Passé ce délai, le prix sera fixé à :
- Entrée: 0,27$ par million de jetons (échec du cache)
- Entrée: 0,07$ par million de jetons (accès au cache)
- sortie: 1,10$ par million de jetons
Pour faire simple, DeepSeek est beaucoup plus abordable que des modèles tels que Claude 3.5 Sonnet, GPT-4o et Gémeaux 1.5 Pro. En fait, DeepSeek V3 est 53 fois moins cher à utiliser pour inférer que Claude Sonnet ! Sur Routeur ouvert, il ne coûte que 0,14 dollar en entrée et 0,28 dollar en sortie.
V. Limites
DeepSeek-v3, en raison de la réglementation chinoise, évite les sujets politiquement sensibles. Vous n'obtiendrez pas de réponses concernant :
- Place Tiananmen
- Xi Jinping
- Les implications géopolitiques de l'invasion de Taïwan par la Chine
Cela est dû à la réglementation chinoise qui exige que les modèles « incarnent les valeurs socialistes fondamentales ». De plus, il n'est pas à l'abri du « jailbreak », ce qui signifie que ceux qui possèdent le savoir-faire peuvent contourner les mesures de protection.
Il est important de noter que ces restrictions ne sont pas propres à DeepSeek-v3 mais constituent une caractéristique courante des modèles d'IA développés en Chine. Cela est dû à l'environnement politique et réglementaire dans lequel ces modèles sont créés.
VI. Application et impact
L'impact de DeepSeek-V3 est indéniable. Voici pourquoi :
Recherche et développement : Un modèle open source hautement performant comme celui-ci stimule l'innovation, permettant aux chercheurs d'expérimenter et de développer la technologie de DeepSeek.
Applications commerciales : La licence rend l'utilisation commerciale autorisée, l'ouvrant à de nombreuses applications dans différents secteurs.
Démocratisation de l'IA: En rendant l'IA puissante accessible, elle uniformise les règles du jeu et permet aux petites entreprises de rester compétitives.
Solutions rentables : Des coûts de formation réduits et des prix compétitifs en font un choix convaincant pour tous qui cherchent à tirer parti de l'IA sans lourdes charges financières.
Défier le statu quo : Sa capacité à défier les meilleurs modèles à source fermée indique que l'IA open source est une alternative authentique et viable.
Innovation en matière d'inférence : Les fonctionnalités d'inférence avancées du modèle, qui utilisent 32 GPU H800 pour le préremplissage et 320 GPU H800 pour le décodage, témoignent d'un nouveau niveau de sophistication dans le déploiement des modèles et définissent la norme pour l'avenir.
Conclusion
DeepSeek-v3 n'est pas simplement une autre amélioration progressive — c'est un grand pas en avant. C'est exceptionnel. performance, associé à un approche open source, suggère un changement de paradigme. IA de premier plan, semble-t-il, ne nécessite pas nécessairement des coûts exorbitants ou des licences restrictives.
DeepSeek-V3 vitesse, versatilité, et accessibilité en faire une force dans le paysage de l'IA, en présentant le pouvoir de la collaboration et démocratisation dans le domaine de la technologie. C'est une déclaration audacieuse : le développement ouvert peut non seulement suivre le rythme, mais devancer modèles traditionnels. Il ne s'agit pas seulement d'un modèle impressionnant ; c'est un phare qui nous guide vers un avenir plus inclusif et collaboratif en matière d'intelligence artificielle.