Nvidia dévoile Rubin, sa plateforme pour l’IA à grande échelle

Au CES le 5 janvier 2026, NVIDIA a levé le voile sur Rubin, sa nouvelle plate‑forme rack‑scale dédiée à l’intelligence artificielle à grande échelle. Présentée sous les désignations Vera Rubin NVL72 et HGX Rubin NVL8, cette architecture est décrite comme un système « extreme codesign » composé de six puces co‑conçues pour optimiser le coût et la latence des charges d’entraînement et d’inférence.

Les annonces associent chiffres de performance, innovations mémoire et réseau, ainsi qu’un vaste écosystème de partenaires cloud et constructeurs. NVIDIA positionne Rubin comme une réponse aux besoins croissants en calcul pour les modèles à très grand contexte, les architectures agentiques et les mixtures‑of‑experts.

Les six composants clés du design Rubin

La plateforme Rubin repose sur six blocs matériels intégrés : le CPU Vera, le GPU Rubin, le commutateur NVLink 6, la SuperNIC ConnectX‑9, le DPU BlueField‑4 et le switch Ethernet Spectrum‑6. NVIDIA insiste sur un co‑design poussé entre ces éléments pour réduire les goulots d’étranglement et optimiser le coût par token d’inférence.

Chaque composant joue un rôle précis : Vera pilote les workflows CPU‑intensifs, Rubin fournit la densité de calcul NVFP4, NVLink 6 permet l’agrégation haute‑bande passante intra‑rack, tandis que ConnectX‑9 et BlueField‑4 gèrent la connectivité avancée, l’agrégation mémoire et la sécurité. Spectrum‑6, avec ses déclinaisons photoniques (Spectrum‑X), cible un rendement énergétique et des débits supérieurs pour les échanges rack‑wide.

Ce couplage matériel/logiciel vise à offrir une pile complète, du µs réseau jusqu’à la mémoire partagée, en s’adressant aux intégrateurs (Dell, HPE, Lenovo, Supermicro) et aux fournisseurs cloud cités par NVIDIA.

Architecture et performances annoncées

NVIDIA a publié des chiffres ambitieux : par puce, le Rubin GPU est présenté autour de ~50 PFLOPS en inférence NVFP4 et ~35 PFLOPS en entraînement NVFP4. À l’échelle d’une baie Vera Rubin NVL72, la firme évoque ~3.6 exaFLOPS NVFP4 en inférence et ~2.5 exaFLOPS NVFP4 en entraînement, selon la configuration.

La société compare ces performances à sa génération précédente (Blackwell) et avance des réductions du coût par token allant jusqu’à 10x en inférence, ainsi qu’une capacité d’entraînement de modèles MoE avec 4x moins de GPU. Ces assertions sont présentées comme projections commerciales et doivent être lues comme des estimations fournies par NVIDIA.

La bande passante NVLink 6 et le NVLink 6 Switch sont mis en avant pour scaler efficacement les GPU au sein du rack, avec des dizaines de téraoctets de HBM4/LPDDR5X annoncés selon les variantes, ce qui doit permettre d’adresser des modèles et des jeux de données de très grande taille.

Mémoire, contexte très long et Rubin CPX

Un des axes techniques majeurs est l’optimisation du contexte long. NVIDIA rappelle sa famille Rubin CPX (GPU conçus pour la « massive‑context inference ») capable de traiter des séquences de l’ordre du million de tokens. La plateforme NVL144 CPX annoncée en septembre 2025 visait déjà jusqu’à ~8 exaFLOPS et ~100 TB de mémoire rapide par rack.

Pour Rubin, NVIDIA introduit une nouvelle hiérarchie mémoire baptisée « Inference Context Memory Storage Platform ». Elle repose notamment sur le DPU BlueField‑4 pour créer un niveau de mémoire partagé destiné au stockage et à la réutilisation des caches clé‑valeur, accélérant les architectures agentiques et les traitements à très long contexte (réutilisation de K/V cache entre requêtes).

Ces mécanismes cherchent à réduire la duplication des états et à diminuer le coût par token lors d’inférences prolongées (code sur grand projet, traitement vidéo longue durée, dialogues complexes), en s’appuyant sur une couche réseau/accélération dédiée.

Sécurité, fiabilité et maintenance rack‑wide

NVIDIA met en avant des fonctionnalités de « confidential computing » étendues à l’échelle du rack, visant à protéger les charges sensibles durant l’exécution et le transit des données. La plateforme Rubin introduit aussi un second RAS Engine censé renforcer la résilience et permettre des opérations de maintenance sans interruption (zéro‑downtime maintenance).

Le DPU BlueField‑4 et la SuperNIC ConnectX‑9 jouent un rôle central dans l’isolation, le chiffrage et l’orchestration des flux, permettant de cloisonner des domaines d’exécution et de limiter la surface d’attaque. Ces capacités sont destinées aux clients exigeant des garanties de sécurité pour le déploiement en production à grande échelle.

Enfin, le design rack‑wide intègre des mécanismes de surveillance et des pipelines RAS (reliability, availability, serviceability) plus robustes, répondant aux attentes des opérateurs cloud et des centres de données hyperscale.

Écosystème, offres cloud et calendrier

NVIDIA a cité une liste large de partenaires et clients : Microsoft (Fairwater AI superfactories utilisant NVL72), AWS, Anthropic, OpenAI, Meta, Google, CoreWeave, Dell, HPE, Lenovo, Supermicro, Mistral AI, Cohere, Runway, xAI, Perplexity, etc. Ces partenariats témoignent d’un écosystème voulu très vaste pour accélérer l’adoption.

Sur la disponibilité, CoreWeave figure parmi les premiers clouds à proposer Rubin via CoreWeave Mission Control ; Nebius a annoncé qu’il proposera Vera Rubin NVL72 aux États‑Unis et en Europe à partir du second semestre 2026. NVIDIA a indiqué, via la CFO Colette Kress à CES/J.P. Morgan, que la montée en production de la plateforme est prévue pour le second semestre 2026 et que l’entreprise dispose de la capacité chaîne d’approvisionnement nécessaire.

Ces annonces restent couplées à des engagements commerciaux et des projections financières : NVIDIA promeut des gains économiques (réduction du « token cost » et accélération du « token revenue ») mais rappelle implicitement que ces chiffres sont porteurs de forward‑looking statements soumis aux aléas du marché et de la mise en production.

Cas d’usage et implications pour l’IA

NVIDIA positionne Rubin pour des usages exigeants : intelligence artificielle agentique, raisonnement avancé, mixtures‑of‑experts (MoE) à très grand contexte, codage sur projets massifs, recherche et traitement vidéo longue durée, et inférence multimodale à large contexte. La plateforme vise à rendre ces charges plus rapides et moins coûteuses en production.

Les gains promis en coût par token et en efficience matérielle pourraient accélérer la démocratisation d’applications gourmandes en contexte, comme des assistants très spécialisés, des outils de montage vidéo assistés par IA ou des environnements de simulation et de recherche assistés par modèles géants.

Cependant, les observateurs et médias (Business Insider, Tom’s Hardware, MarketWatch, Barron’s, The Guardian) notent que ces promesses doivent être vérifiées en conditions réelles, et que la course au hardware d’IA entre NVIDIA et ses rivaux reste un facteur d’incertitude technique et commercial.

Innovations réseau et photonics

Le volet réseau de Rubin inclut le Spectrum‑6 Ethernet Switch et des technologies photoniques évoquées comme Spectrum‑X. NVIDIA met en avant des débits très élevés et une efficacité énergétique accrue, avec des chiffres techniques évoquant des capacités supérieures à 400 Tb/s pour certaines architectures de commutation/photoniques.

Ces innovations sont censées réduire les coûts énergétiques et la latence des échanges intra‑rack et inter‑rack, essentiels pour maintenir des performances linéaires à l’échelle exaFLOPS. Le couplage entre NVLink 6 et Spectrum‑6 vise à offrir une interconnexion équilibrée entre calcul et mémoire répartie.

Le rôle des SuperNIC et DPU devient central : offload réseau, stockage mémoire partagé et sécurisation des flux, autant d’éléments nécessaires pour orchestrer des modèles à très grand contexte en production.

Réception médiatique et perspectives

La couverture presse a largement relayé l’annonce, soulignant l’approche de codesign matériel et logiciel et la montée en puissance de la concurrence pour le hardware IA. Les analyses notent l’ambition technique mais appellent à des validations indépendantes des gains annoncés.

Jensen Huang, CEO de NVIDIA, a résumé l’intention stratégique lors du CES : « Rubin arrives at exactly the right moment, as AI computing demand for both training and inference is going through the roof. » Cette déclaration souligne l’urgence perçue par NVIDIA face à la demande croissante en capacités d’IA.

Sur le plan commercial, la disponibilité prévue au second semestre 2026 et l’appui d’un large écosystème cloud laissent entendre que Rubin pourrait devenir un pilier des infrastructures IA hyperscale si les livrables opérationnels confirment les promesses initiales.

En définitive, Rubin apparaît comme une étape majeure dans l’évolution des architectures dédiées à l’IA : un empilement de composants co‑conçus visant à réduire les coûts et à étendre les capacités de contexte et de sécurité à l’échelle du rack. Les chiffres annoncés sont impressionnants, mais leur traduction en bénéfices réels dépendra de la validation en production et de la concurrence technologique.

Pour les entreprises et opérateurs cloud, Rubin représente une promesse d’efficience et d’innovation réseau/mémoire qui pourrait faciliter de nouveaux usages. Reste à observer la trajectoire effective de déploiement à partir du second semestre 2026 et l’impact concret sur le coût d’exploitation des modèles à grande échelle.