L’open source rattrape les géants : déploiement local et nouvelles puces redessinent l’écosystème
Le centre de gravité de l’intelligence artificielle open source se déplace rapidement. Pendant des années, l’innovation s’est concentrée dans le cloud, au sein de datacenters toujours plus vastes, avec des coûts d’inférence et des contraintes de gouvernance qui limitaient l’adoption à grande échelle. Aujourd’hui, une autre dynamique s’impose : exécuter des modèles localement, sur des laptops, des stations de travail, des puces embarquées et même des postes de développement, sans dépendre systématiquement d’une API distante.
Ce basculement n’est pas seulement technique, il est stratégique. Entre les modèles ouverts plus efficaces, la quantization, l’optimisation des runtimes et l’arrivée de nouvelles générations de puces chez Qualcomm, AMD, NVIDIA ou encore les écosystèmes hybrides de Google et OpenAI, l’open source rattrape les géants sur leur propre terrain : celui de la performance, du contrôle et de la distribution produit.
Le local devient une option crédible, puis un standard
Le lancement de gpt-oss par OpenAI en août 2025 a marqué un tournant symbolique. Avec une licence Apache 2.0 et la promesse d’une exécution sur matériel grand public, le modèle gpt-oss-20b, capable de fonctionner avec seulement 16 Go de mémoire, a rendu l’inférence locale bien plus accessible qu’auparavant. On ne parle plus d’un prototype réservé à quelques passionnés, mais d’une brique exploitable dans des produits réels.
Cette évolution change la manière de concevoir les applications IA. Là où l’on architecturait d’abord un flux cloud-first, on peut désormais envisager un mode local-first pour les usages courants : assistants internes, classification documentaire, recherche sémantique embarquée ou fonctions de copilote sur machine client. Le cloud reste utile, mais il devient un niveau supérieur mobilisé pour les tâches les plus lourdes.
Pour les équipes produit, cela ouvre une nouvelle logique de distribution. Un modèle local améliore la latence, réduit les coûts récurrents d’appel API et renforce la maîtrise des données. Dans un contexte B2B, ces points ne relèvent pas du détail : ils peuvent faire la différence lors d’un audit sécurité, d’un déploiement en environnement sensible ou d’une négociation commerciale.
Snapdragon et l’IA embarquée accélèrent le mouvement
Le 5 août 2025, Qualcomm a annoncé que gpt-oss-20b pouvait être exécuté directement sur des appareils Snapdragon via Hugging Face et Ollama. Le message est clair : l’IA “locale” n’est plus cantonnée au poste de travail équipé d’un GPU costaud, elle s’installe aussi sur des appareils mobiles et des plateformes embarquées. C’est un changement majeur pour l’inférence en périphérie.
Cette capacité à faire tourner des assistants de raisonnement sur des puces plus compactes a des implications immédiates pour les usages terrain. Dans la mobilité, l’industrie, les points de vente ou la maintenance, disposer d’un modèle fonctionnant sans connexion permanente réduit les frictions. L’IA peut rester disponible même hors ligne, tout en limitant les transferts de données sensibles.
Pour les développeurs, l’enjeu est aussi d’outiller l’expérience utilisateur sans complexifier l’architecture. Un même produit peut combiner un runtime local sur appareil Snapdragon et un fallback cloud pour les requêtes plus coûteuses. On passe ainsi d’une intelligence artificielle centralisée à une IA distribuée, adaptée aux contraintes réelles des terminaux.
Les “deskside supercomputers” changent l’échelle du poste local
En janvier 2026, NVIDIA a introduit DGX Spark et DGX Station, deux systèmes pensés comme des “deskside supercomputers”. Leur ambition est simple mais radicale : rendre possible l’exécution locale de modèles ouverts et frontier, jusqu’à 100 milliards de paramètres sur Spark et jusqu’à 1 trillion sur Station. Le poste local n’est plus un simple terminal de consommation, il devient une plateforme de calcul sérieuse.
Cette montée en puissance rapproche la R&D IA des équipes produit et des développeurs. Là où il fallait auparavant réserver des ressources distantes, louer du GPU cloud ou attendre des créneaux partagés, il devient possible de prototyper, tester, quantifier et optimiser sur site. Le cycle d’itération se raccourcit et les arbitrages techniques deviennent plus concrets.
NVIDIA ne pousse pas uniquement du matériel. L’entreprise met aussi en avant ses collaborations avec la communauté open source, notamment avec llama.cpp, en annonçant un gain moyen de performance de 35 % sur DGX Spark. Ce point est essentiel : l’écosystème open source ne gagne pas seulement en puissance brute, il gagne aussi en optimisation logicielle et en maturité d’exécution.
Frameworks locaux, quantization et souveraineté opérationnelle
L’essor du déploiement local repose sur une chaîne d’outils devenue beaucoup plus performante. La quantization, la compression, le batching intelligent et les runtimes spécialisés permettent à des modèles plus ambitieux de tourner sur des machines moins extrêmes. AMD a clairement investi ce terrain en rendant open source sa bibliothèque Quark en mai 2025, avec un positionnement explicite pour les assistants IA locaux et les déploiements on-device.
Dans le même esprit, ROCm 6 est présenté comme une plateforme open source optimisée pour les workloads HPC et IA, compatible avec les frameworks industriels et renforcée par un écosystème de conteneurs et de guides de déploiement. Autrement dit, l’ouverture ne concerne plus seulement les modèles : elle s’étend à toute la chaîne d’exécution, du silicium aux frameworks.
Pour les entreprises, cette évolution a une portée très concrète. Elle permet d’envisager des architectures hybrides où l’IA locale prend en charge les interactions simples, les extractions de données, les filtrages ou les actions de premier niveau, tandis que le cloud intervient sur les calculs spécialisés. Ce modèle réduit la dépendance à un fournisseur unique et améliore la résilience opérationnelle.
Google normalise le multi-hardware et le local-first
Avec Gemma 4, annoncé le 2 avril 2026, Google a explicitement positionné ses modèles pour tourner et être fine-tunés efficacement sur des GPU d’ordinateur portable, des stations de travail et des accélérateurs, tout en restant déployables en local. Le signal est fort : l’inférence locale n’est plus une alternative marginale, elle devient une stratégie produit assumée.
Google est allé encore plus loin en affirmant que l’inférence locale est idéale pour les usages hors ligne, tout en conservant une voie vers le cloud pour les charges plus lourdes. Cette approche hybride correspond bien aux réalités des produits numériques modernes : certains cas d’usage exigent une réactivité immédiate et une confidentialité maximale, d’autres nécessitent davantage de calcul ou des capacités de raisonnement étendues.
Les annonces autour de TranslateGemma et de FunctionGemma illustrent la même tendance. TranslateGemma, avec son modèle 12B conçu pour tourner “en douceur” sur des laptops grand public, montre que les usages spécialisés, ici la traduction, peuvent eux aussi devenir locaux. FunctionGemma, de son côté, cible les systèmes hybrides où un modèle léger gère des actions locales et limite les appels aux grands modèles pour les tâches complexes.
L’adoption open source devient un indicateur de marché
La progression des téléchargements de la famille Gemma est révélatrice. Google a indiqué en mai 2026 que la série était passée de 100 millions à plus de 300 millions de téléchargements en 2025. Au-delà du chiffre, cela montre que les modèles ouverts ne sont plus une expérimentation de niche : ils sont en train de devenir un actif de distribution à part entière.
Cette traction s’explique en partie par la flexibilité d’intégration. Les développeurs peuvent adapter un modèle local à un produit, l’exécuter dans un environnement maîtrisé et choisir quand le cloud est nécessaire. Des outils comme Gemini CLI, lancé en juin 2025, renforcent cette logique en amenant l’IA directement dans les usages quotidiens des développeurs, avec une approche terminal-first et locale.
En parallèle, Google a lancé OSS Rebuild en juillet 2025 pour renforcer la confiance dans les écosystèmes open source. Ce rappel est important : plus l’IA locale se diffuse, plus les exigences de reproductibilité, de sécurité de chaîne logicielle et de transparence deviennent centrales. Le succès du local-first dépend autant de la performance que de la confiance.
Le marché se déplace de l’entraînement vers l’inférence
Ce que montrent les annonces récentes d’OpenAI, Google, Qualcomm, NVIDIA et AMD, c’est une convergence claire : l’open source n’est plus seulement un terrain d’entraînement ou de recherche, mais un marché d’inférence. Les modèles sont pensés pour être compressés, exécutés et servis là où se trouve l’utilisateur, avec une priorité donnée à la latence, au coût et au contrôle.
Les nouvelles puces jouent ici un rôle de catalyseur. AMD annonce une vision “open AI ecosystem” combinant silicium, logiciels et systèmes, avec une feuille de route MI400 et un objectif d’amélioration de 20x de l’efficacité énergétique au niveau rack d’ici 2030. NVIDIA, de son côté, pousse l’inférence avec Dynamo 1.0, présenté comme un “système d’exploitation d’inférence” open source pour les AI factories, et NemoClaw, une pile open source pour le déploiement sur site d’assistants autonomes.
Cette montée en puissance redessine les choix d’architecture pour les équipes techniques. Il ne s’agit plus de choisir entre open source et performance, ou entre local et cloud. La question devient : quelle combinaison de modèle, de puce, de runtime et d’orchestration produit le meilleur compromis pour un usage donné ? C’est précisément là que les nouvelles briques open source prennent un avantage décisif.
Pour les entreprises, cela signifie qu’il faut repenser la place de l’IA dans les produits numériques. Les modèles ouverts deviennent des composants intégrables, portables et optimisables. Les puces dédiées transforment le poste de travail, le laptop et l’appareil embarqué en plateformes d’exécution crédibles. Et l’écosystème, porté par l’open source, devient suffisamment mature pour sortir du datacenter sans perdre en pertinence.
Chez Hurter & Co, cette évolution confirme une tendance de fond : la valeur ne se joue plus seulement dans le modèle, mais dans la capacité à l’industrialiser localement, de manière sûre, performante et adaptée aux usages réels. L’open source rattrape les géants, non pas en imitant leur centralisation, mais en proposant une alternative plus distribuée, plus flexible et souvent plus proche du besoin métier.
