Le vrai coût d'une dépendance API
Un cas vécu illustre la mécanique. Une scale-up lilloise d'une cinquantaine de personnes, qui édite une plateforme de relation client, a vu sa facture mensuelle d'API LLM passer de 4 000 € en janvier 2024 à 38 000 € en janvier 2026, suivant la trajectoire de croissance de son trafic. Le coût marginal par utilisateur, qui devait baisser avec l'effet d'échelle, a en réalité augmenté à mesure que les fonctionnalités IA se sont multipliées : résumé automatique, classification, génération de réponses, scoring. À ce stade, l'arbitrage devient mathématique. Avec un modèle open source affiné sur ses propres conversations clients et hébergé sur deux serveurs équipés de cartes GPU, la même charge revient à 11 000 € par mois infrastructure et exploitation comprises. Le calcul de retour sur investissement intègre alors le coût du recrutement d'un ingénieur ML — autour de 75 000 € en région — et le délai d'amortissement, généralement situé entre 9 et 14 mois sur ce type de profil. Au-delà du coût, la dépendance API expose à trois risques. Le premier est la volatilité tarifaire : OpenAI a modifié ses prix six fois en deux ans, parfois à la hausse. Le deuxième est la perte de contrôle sur la qualité, quand un fournisseur retire un modèle de sa gamme ou modifie son comportement sans préavis. Le troisième est la fuite de données stratégiques : envoyer ses prompts sensibles à un tiers extra-européen pose un problème croissant aux secteurs régulés et aux acheteurs publics.Ce que l'open source rend possible aujourd'hui
L'écosystème français a beaucoup mûri. Mistral AI propose une famille de modèles ouverts compétitifs sur la plupart des tâches d'entreprise. Le réseau d'hébergeurs souverains — OVHcloud, Scaleway, Outscale — fournit l'infrastructure GPU à des tarifs plus prévisibles que les hyperscalers américains. Les outils d'orchestration et d'évaluation (LangFuse, Ragas, Promptfoo, Haystack) sont matures et largement documentés. Ce qui était un projet de 18 mois en 2023 — fine-tuner un modèle sur ses données métier, l'exposer via une API interne, l'évaluer et le superviser — s'exécute en 2026 avec une équipe de deux personnes en quatre à six mois. Le saut de productivité s'explique par la maturité des frameworks et par la disponibilité de tutoriels sectoriels. L'État français lui-même publie via la DINUM des architectures de référence pour l'IA souveraine en administration.Quand le build n'a pas de sens
Le récit de la souveraineté ne doit pas masquer une réalité économique : pour beaucoup de jeunes startups en phase d'amorçage, le build prématuré ralentit le time-to-market et brûle du capital. Tant que l'on cherche le product-market fit et que les volumes d'usage restent faibles, payer une API à l'usage est plus rationnel que d'embaucher une équipe ML. Trois critères justifient la bascule vers un stack propriétaire. Le premier est volumétrique : au-delà de 20 000 € à 25 000 € de facture mensuelle d'API, le seuil d'intérêt économique du build est atteint. Le deuxième est réglementaire : un acteur soumis à l'AI Act sur un système à haut risque, ou un éditeur santé ou finance, ne peut souvent pas se permettre d'envoyer ses données chez un tiers extra-européen. Le troisième est stratégique : si la qualité du modèle constitue un avantage compétitif sur lequel se joue la différenciation produit, externaliser ce cœur n'a pas de sens.L'approche hybride : ce que font les meilleures équipes
Les architectures observées chez les scale-ups les plus avancées combinent désormais trois couches. Une couche commodité — pour les tâches périphériques sans valeur compétitive — utilise des API publiques optimisées pour le coût. Une couche cœur, sur les fonctionnalités différenciantes, repose sur un modèle open source affiné en interne. Une couche conformité, dédiée aux traitements sensibles ou réglementés, fonctionne en environnement isolé sur infrastructure souveraine. Cette architecture à trois étages permet de capturer la rapidité du buy là où elle compte, tout en sécurisant la marge et la conformité sur le cœur métier. Elle exige néanmoins une discipline d'inventaire des cas d'usage que peu d'entreprises tiennent en pratique. Le travail de cartographie — quel cas d'usage relève de quelle couche ? — est souvent le premier livrable d'un comité IA opérationnel.Vidéo : la gouvernance IA au service de la stratégie
Cette intervention de la série « Conduire un projet IA dans votre entreprise » de Bpifrance Université détaille les arbitrages de gouvernance qui sous-tendent les choix d'architecture. Elle est particulièrement pertinente pour les Codir qui doivent trancher entre build et buy sans tomber dans la pure analyse coût.Foire aux questions
À partir de quel seuil de facture API faut-il envisager le build ?Le seuil empirique se situe autour de 20 000 € à 25 000 € par mois en charge soutenue, en intégrant le coût d'un ingénieur ML et l'infrastructure GPU. En deçà, l'optimisation des prompts et la rationalisation des appels rapportent davantage. Quels modèles open source recommander en 2026 ?
Pour les usages francophones, Mistral Large 2 et Mistral Small 3 offrent un bon compromis qualité-coût. Llama 3.3 reste pertinent pour les usages multilingues. Pour les besoins légers (classification, extraction), Phi-3 et les modèles distillés tournent sur des GPU modestes. Comment se prémunir d'un vendor lock-in si l'on reste sur des API ?
Trois leviers : abstraction du fournisseur via une couche d'orchestration interne, journalisation des prompts et des réponses pour pouvoir migrer, et tests d'évaluation reproductibles permettant de comparer plusieurs modèles sur les mêmes jeux de données. Existe-t-il des aides françaises pour financer un stack souverain ?
Oui. Le programme France 2030 finance via Bpifrance des projets de souveraineté IA. La région Hauts-de-France propose le dispositif Tech4Industries pour les ETI manufacturières. Le label Confiance Numérique simplifie les marchés publics.