Quand on lance une startup tech en 2026, la première question IA n’est plus « quel modèle est le plus intelligent » mais « qu’est-ce que je paie, qui voit mes données, et qui héberge ». Open weights (Mistral Large 3, Llama 4, Qwen 3) et API fermée (OpenAI GPT-5, Anthropic Claude Sonnet 4.5, Google Gemini 2.5 Pro) reposent sur deux modèles économiques, juridiques et opérationnels radicalement différents. Ce guide compare les deux approches avec des chiffres publics de juin 2026, pour aider les fondateurs à choisir en connaissance de cause, pas en fonction du dernier thread viral sur X.
L’enjeu n’est pas anecdotique : entre mars 2024 et juin 2026, le prix au token des API fermées a chuté de 80 à 95 % selon les éditeurs, pendant que les poids ouverts descendaient sous la barre des 0,10 dollar par million de tokens en self-hosting GPU H100 loué. Pour un founder, l’arbitrage peut représenter 50 000 à 500 000 euros de burn mensuel à l’échelle d’un million d’utilisateurs actifs. On a recoupé les pages de pricing publiques de Mistral, OpenAI, Anthropic, Google, Meta AI et Artificial Analysis pour produire ce comparatif vérifiable. On en parle aussi dans notre dossier sur les GPU IA 2026 et les alternatives à NVIDIA, pour comprendre ce que coûte réellement l’inférence en self-hosting.
Quel est l’essentiel à retenir en 30 secondes ?
- Écart de prix réel : GPT-5 facturé ~3 $/M tokens en input, Llama 4 70B self-hosté sur H100 loué revient à ~0,08 $/M tokens en moyenne (hors amortissement GPU).
- Souveraineté : les API fermées hébergent vos prompts aux USA/UE, les open weights vous laissent choisir l’hébergeur (OVHcloud, Scaleway, CoreWeave, on-prem).
- Latence : 200-400 ms en API fermée (réseau + queue), 50-150 ms en self-hosting (débit GPU pur), 500-1 200 ms en self-hosting sur GPU d’entrée de gamme.
- Benchmark : sur MMLU et HumanEval, GPT-5 et Claude Sonnet 4.5 restent en tête (+5 à +8 points), mais Llama 4 70B et Mistral Large 3 sont à moins de 3 points des leaders.
- Régulation : l’AI Act européen est reporté à 2027, mais le RGPD reste applicable : appeler une API non européenne depuis la France reste légal mais ajoute une variable CNIL.
Pourquoi cette décision compte plus que jamais en 2026 ?
En 2024, la question « open weights ou API fermée » se tranchait surtout à la marge : les modèles ouverts étaient 15-20 points sous les fermés sur les benchmarks, et la souveraineté était un argument de niche. En 2026, trois facteurs rebattent les cartes :
- La guerre des prix : OpenAI a baissé GPT-5 de 40 % entre janvier et juin 2026, Anthropic a riposté avec Claude Sonnet 4.5 à 3 $/M input, et les poids ouverts descendent sous 0,10 $/M en self-hosting mutualisé.
- Le poids de l’AI Act reporté à 2027 : l’Union européenne a officiellement décalé les obligations IA générative à 2027, ce qui laisse 18 mois de fenêtre réglementaire légère, mais le RGPD, lui, ne bouge pas. Pour une startup B2B qui manipule des données RH ou médicales, le choix d’hébergement devient un argument commercial.
- La parité quasi-atteinte sur les benchmarks : sur MMLU, HumanEval et GSM8K, l’écart entre le meilleur modèle ouvert (Llama 4 70B, Mistral Large 3) et le meilleur modèle fermé (GPT-5, Claude Sonnet 4.5) est tombé à 3-5 points en juin 2026, contre 15-20 points il y a 18 mois. Pour 80 % des cas d’usage startup (chat, RAG, classification, extraction), la qualité n’est plus un discriminant.
Pour notre enquête sur l’écosystème français, on avait d’ailleurs croisé ces données avec notre dossier sur les 1,2 milliard de données de Français exposés par le moteur Searcher : à l’heure où la confidentialité des données devient un argument marketing, l’open weights redevient un atout pour les startups qui signent avec des clients grands comptes.
Quel est le coût réel au token en open weights vs API fermée ?
Voici les prix publics relevés en juin 2026 sur les pages officielles des éditeurs. Tous les chiffres sont en dollars US par million de tokens, hors remise volume. Source : pages pricing de Mistral, OpenAI, Anthropic, Google AI Studio, Meta AI, recoupés avec Artificial Analysis pour la latence.
| Modèle | Éditeur | Type | Input ($/M tok) | Output ($/M tok) | Licence / hébergement |
|---|---|---|---|---|---|
| Mistral Large 3 | Mistral AI | Open weights | 2,00 | 6,00 | Apache 2.0 (self-host) ou API Mistral (UE) |
| Llama 4 70B | Meta AI | Open weights | ~0,65 (self-host) | ~0,65 (self-host) | Llama 4 Community License (self-host obligatoire) |
| Qwen 3 32B | Alibaba | Open weights | ~0,15 (self-host) | ~0,15 (self-host) | Apache 2.0 (self-host ou API Alibaba Cloud) |
| OpenAI GPT-5 | OpenAI | API fermée | 3,00 | 12,00 | API uniquement, hébergement US/UE |
| Claude Sonnet 4.5 | Anthropic | API fermée | 3,00 | 15,00 | API uniquement, hébergement US |
| Gemini 2.5 Pro | Google DeepMind | API fermée | 1,25 | 5,00 | API uniquement, hébergement US/UE |
Important : les chiffres « self-host » pour Llama 4 70B et Qwen 3 32B sont des ordres de grandeur agrégés à partir des coûts d’inférence sur GPU H100 loué (~2,50 $/h) et d’un débit réaliste de 30 000 tokens/s par H100. Le coût réel dépend de votre tuning (quantization, batching, caching) et du fournisseur GPU. On en reparle dans la section suivante. On avait d’ailleurs croisé ces enjeux hardware dans notre dossier GPU IA 2026.
En première lecture, Gemini 2.5 Pro apparaît comme l’API fermée la moins chère (1,25 $/M input), suivie de Mistral Large 3 en mode API (2 $/M). Mais Mistral Large 3 a un atout caché : vous pouvez basculer en self-hosting dès que votre volume dépasse 200 millions de tokens/mois, ce qui fait chuter le coût à 0,15-0,30 $/M. C’est la seule API fermée majeure qui offre cette porte de sortie sans réécrire votre stack.
Quels sont les vrais coûts cachés de l’open weights en self-hosting ?
Le prix affiché d’un modèle ouvert n’est jamais le prix réel. Voici ce qu’il faut intégrer dans votre modèle financier, en se basant sur les benchmarks publics de HuggingFace Open LLM Leaderboard et d’Artificial Analysis.
Un LLM 70B self-hosté, c’est au minimum 2x GPU H100 80 Go (80 000 $ à l’achat, 4-6 $/h en location), 5-8 To de stockage NVMe pour les poids, une équipe MLOps à temps partiel (ou un consultant à 1 200-2 500 €/jour), et 2-6 mois de mise au point sur le fine-tuning, le prompt engineering avancé et la mise en production. Le « 0,08 $/M tokens » n’est vrai qu’au-delà de 200 millions de tokens/mois et avec un caching agressif. En dessous, vous perdez de l’argent par rapport à une API.
Concrètement, voici les seuils de rentabilité observés en 2026 chez les startups qui ont publié leurs chiffres :
- Llama 4 70B en self-hosting : rentable à partir de 100 millions de tokens/mois, avec un sweet spot entre 500 millions et 5 milliards de tokens/mois.
- Qwen 3 32B en self-hosting : rentable à partir de 30 millions de tokens/mois (modèle plus léger, suffit pour 70 % des cas d’usage).
- Mistral Large 3 en self-hosting : rentable à partir de 200 millions de tokens/mois (modèle plus gros, 400B paramètres, exige 4-8 GPU H100).
Si vous êtes en dessous de ces seuils, l’API fermée est presque toujours moins chère. Le piège classique du founder, c’est de basculer en self-hosting trop tôt pour des raisons idéologiques (« je veux maîtriser mes données ») et de se retrouver à dépenser 15 000 €/mois en infrastructure pour économiser 3 000 € d’API. À l’inverse, attendre trop longtemps en API fermée peut griller 200 000 € de cash avant que vous ayez le PMF.
Pour une startup early-stage qui doit prototyper vite, on recommande souvent de commencer par Qwen 3 32B en API (Alibaba Cloud ou Hugging Face Inference Endpoints) puis de basculer en self-hosting dès que la traction est là. C’est aussi l’approche qu’on retrouve dans notre tour d’horizon des outils IA accessibles aux petites équipes.
Que paye-t-on vraiment avec une API fermée au-delà du token ?
L’API fermée est souvent présentée comme « plus simple, plus rapide à intégrer ». C’est vrai pour le MVP, mais le ticket d’entrée invisible est plus salé qu’il n’y paraît. Voici ce qu’il faut anticiper.
Que faire systématiquement avec une API fermée ?
- Négocier un contrat volume dès 50 000 $/mois (réduction 20-40 % possible)
- Mettre en place un caching de prompts et de réponses (réduction 30-50 % réelle)
- Tracer les prompts en production pour identifier les usages optimisables
- Prévoir un fallback open weights dès que vous passez 200 000 $/mois
- Choisir un hébergeur UE quand l’API le permet (Mistral, Gemini, OpenAI EU)
Que faut-il éviter absolument avec une API fermée ?
- Envoyer des données personnelles non anonymisées sans AIPD (RGPD)
- Brancher une API fermée sur un workflow critique sans SLA ni backup
- Ignorer les « soft caps » : OpenAI et Anthropic limitent le débit par minute
- Payer l’output premium pour des tâches qui n’en ont pas besoin (extraction, classification)
- Basculer d’éditeur tous les 6 mois : coût de migration supérieur aux économies
Le point le plus sous-estimé est l’impact sur le produit : une API fermée dont la latence passe de 300 ms à 1 200 ms un mardi matin peut vous faire perdre 15 % de conversions sur un chat in-app. Les API fermées subissent des incidents (OpenAI a connu 4 outages majeurs en 2025, Anthropic 3, Google 2 selon les chiffres publiés par les éditeurs eux-mêmes). Pour une startup en production, c’est un risque à couvrir. À l’inverse, on a vu des approches hybrides donner de bons résultats dans notre analyse d’Apple Intelligence 2.0 et Private Cloud Compute : un modèle léger on-device pour les usages fréquents, une API distante uniquement pour les cas complexes. La même logique vaut pour une startup SaaS.
Quel modèle choisir selon le profil de startup en 2026 ?
Le bon modèle dépend moins du « meilleur benchmark » que de votre contexte opérationnel. Voici les quatre profils-types qu’on rencontre le plus souvent dans l’écosystème startup français et européen en 2026.
Startup early-stage : faut-il privilégier l’API fermée ?
Vous avez 6 à 18 mois de runway, une équipe de 2 à 5 personnes, et un MVP à valider. Le critère dominant est la vitesse d’itération, pas le coût marginal. Dans 90 % des cas, on recommande une API fermée unique (Mistral API hébergée en UE, OpenAI GPT-5 ou Anthropic Claude Sonnet 4.5) en prototypage rapide, avec un œil sur les tokens consommés. Le self-hosting n’a aucun sens à ce stade : il faudrait 2-3 mois de mise en production pour économiser 500 €/mois. Attendez le PMF. À ce stade, la doc d’API Mistral et d’OpenAI suffit.
Startup growth : quand hybrider open weights et API fermée ?
Vous avez 50 000 à 500 000 utilisateurs actifs, des coûts d’API qui passent de 5 000 à 50 000 €/mois, et un CFO qui pose des questions. C’est le moment d’hybrider : gardez l’API fermée pour les workloads à forte variabilité (génération de contenu, RAG complexe), basculez en self-hosting open weights pour les workloads stables et à fort volume (classification, extraction, embeddings, modération). Llama 4 70B ou Qwen 3 32B self-hostés sur Scaleway ou OVHcloud démarrent à 3 000-8 000 €/mois pour 200 millions de tokens.
Scale-up européenne : comment transformer l’open weights en avantage compétitif ?
Vous avez des centaines de millions de tokens/mois, des clients grands comptes qui exigent des garanties de souveraineté, et probablement une équipe MLOps interne. À ce stade, l’open weights en self-hosting devient un avantage compétitif, pas seulement un coût. Vous pouvez proposer du « IA 100 % hébergée en France » comme argument commercial, et vous affranchir des hausses de prix soudaines des API fermées. C’est aussi à ce stade qu’on regarde sérieusement les GPU alternatifs (Groq, Cerebras, AWS Trainium) pour réduire le coût d’inférence de 40-60 %.
Entreprise régulée : pourquoi l’open weights est-il la seule option viable ?
Vous avez des contraintes HDS, SecNumCloud, ISO 27001, et probablement un DPO qui refuse d’envoyer des données patients à une API hébergée aux USA. L’open weights en self-hosting sur un cloud certifié est la seule option viable. Mistral Large 3 (français, conforme AI Act) ou Llama 4 fine-tuné sur vos données, hébergés chez OVHcloud SecNumCloud ou Scaleway, avec chiffrement at-rest et in-transit, audit des accès, et contractualisation des poids. Comptez 6 à 12 mois de mise en conformité et un budget MLOps de 80 000 à 200 000 €/an. C’est cher, mais c’est la barrière à l’entrée du marché. On en parle plus en détail dans notre décryptage du report de l’AI Act à 2027 et de ce qui s’applique vraiment aux entreprises françaises.
Quelle stratégie de souveraineté et RGPD pour une startup IA en Europe ?
Le sujet souveraineté a changé de nature en 2026. Avant, c’était un argument marketing réservé aux clients publics et aux secteurs régulés. Aujourd’hui, c’est un argument de vente B2B courant : toute startup SaaS qui touche de la donnée personnelle (RH, santé, finance, éducation) se voit poser la question « où sont hébergées mes données ? » par ses prospects.
Concrètement, en 2026, l’état de l’art côté européen est le suivant :
- Mistral AI (France) : hébergement en UE, conformité AI Act anticipée, modèles open weights Mistral Large 3, Mistral Small 3 et Mixtral 8x22B disponibles. Idéal pour les startups qui veulent un fournisseur UE sans monter une infra self-host.
- Scaleway (France) : offre d’inférence GPU H100 en cloud souverain, certification SecNumCloud en cours, idéale pour héberger Llama 4 ou Qwen 3 en open weights.
- OVHcloud (France) : AI Endpoints avec modèles pré-déployés (Llama 3.3 70B, Mistral 7B), conformité RGPD-native, facturation à la seconde.
- OpenAI EU region : depuis mai 2025, OpenAI propose une région Europe (Irlande) avec engagement de non-sortie. Mais l’API reste fermée et le code source n’est pas auditable.
- Google Vertex AI EU : Gemini 2.5 Pro disponible en région europe-west4 (Pays-Bas), conformité RGPD + ISO 27001.
Le point réglementaire à ne pas oublier : le report de l’AI Act à 2027 ne change rien au RGPD. Si vous traitez des données de citoyens européens, vous devez toujours faire une AIPD (analyse d’impact relative à la protection des données) avant tout déploiement IA, et documenter les transferts hors UE. La CNIL a publié en 2024 un guide spécifique sur les LLM et le RGPD, qui reste la référence.
Comment ce comparatif a-t-il été construit (méthodologie) ?
Pour la transparence méthodologique, voici comment ce comparatif a été construit :
- Prix API fermée : relevés directement sur openai.com/api/pricing, anthropic.com/pricing, ai.google.dev/pricing et mistral.ai/pricing le 10 juin 2026. Tous les prix sont en USD par million de tokens, hors remise volume.
- Coût self-hosting open weights : calculé sur la base d’un GPU H100 80 Go loué 2,50 $/h (Scaleway, OVHcloud, CoreWeave) avec un débit de 30 000 tokens/s par H100 pour un 70B en fp16. Les coûts réels varient de ±40 % selon le provider, le batching, la quantization et le caching.
- Latence : données Artificial Analysis, médiane p50 sur 1 000 requêtes en juin 2026. Les écarts sont ±30 ms selon la région et la charge.
- Benchmarks : HuggingFace Open LLM Leaderboard (MMLU, HumanEval, GSM8K) à jour au 10 juin 2026. On n’a pas testé en interne : on rapporte les scores publics, avec les biais que cela suppose (test set leakage, prompt format, etc.).
Pour un panorama de l’écosystème hardware qui supporte tout ça, on renvoie à notre dossier GPU IA 2026.
Quelles sont les 6 questions clés sur open weights vs API fermée ?
Quel est le modèle le moins cher en 2026 ?▼
Sur le prix affiché au token, Gemini 2.5 Pro (1,25 $/M input) et GPT-5 (3 $/M) sont les API fermées les moins chères. En self-hosting open weights, Qwen 3 32B descend à ~0,15 $/M token sur H100 loué, suivi de Llama 4 70B à ~0,65 $/M. Mais le coût total dépend du volume, du seuil de rentabilité, et des coûts cachés (MLOps, GPU, mise en production).
Open weights est-il vraiment gratuit ?▼
Non. Les poids du modèle sont gratuits (licence Apache 2.0 ou Llama Community License), mais l’inférence coûte : GPU, électricité, bande passante, stockage, et équipe MLOps. Le « 0,08 $/M token » n’est vrai qu’au-delà de 200 millions de tokens/mois avec caching agressif. En dessous, une API fermée est presque toujours moins chère.
Quelle différence de latence entre API et self-hosting ?▼
En API fermée, comptez 200-400 ms p50 (réseau + queue) sur les régions UE. En self-hosting sur GPU dédié, 50-150 ms p50 (débit GPU pur, sans réseau inter-cloud). En self-hosting sur GPU d’entrée de gamme (A100, L40S) ou en quantization agressive, la latence peut remonter à 500-1 200 ms. Pour un chat in-app, la différence est perceptible ; pour un batch de nuit, elle est négligeable.
Peut-on héberger un LLM en France en restant RGPD-compliant ?▼
Oui, et c’est même l’option la plus sûre d’un point de vue RGPD. OVHcloud, Scaleway et Outscale proposent du GPU H100 loué en France, avec certification ISO 27001, HDS (hébergeur de données de santé) pour Scaleway/Outscale, et SecNumCloud en cours d’homologation. Le modèle open weights est alors 100 % hébergé en France, jamais transféré hors UE, et auditable. Voir la page CNIL sur l’IA générative pour le cadre réglementaire.
Mistral est-il un modèle open weights ?▼
Ça dépend. Mistral 7B, Mixtral 8x7B, Mixtral 8x22B et Mistral Large 3 sont publiés en open weights (poids téléchargeables, licence Apache 2.0). Mais Mistral propose aussi une API fermée (comme OpenAI) et des modèles dits « optimised » qui ne sont pas ouverts. Pour un usage self-host, vérifiez la licence du modèle exact que vous téléchargez sur huggingface.co/mistralai.
Comment négocier avec OpenAI ou Anthropic à fort volume ?▼
Trois leviers : (1) Contrat annuel dès 50 000 $/mois (réduction 20-40 %), (2) Engagement de débit (committed use discount, -25 % typique), (3) Multi-engagement (OpenAI + Anthropic en parallèle, vous négociez mieux). Les Account Managers d’OpenAI et Anthropic sont atteignables dès 20 000 $/mois ; passez par eux plutôt que par le self-service pour les négociations. Mistral est souvent plus agressif commercialement sur les gros volumes européens.







