Choisir son agence IA en 2026 : les 7 critères qu'un CTO doit exiger
Framework de sélection d'une agence IA : architecture RAG, évaluation qualité, monitoring, propriété du code, CII/CIR. Les pièges à éviter et questions à poser.
Pourquoi choisir une agence IA est différent de choisir une agence dev
Choisir une agence IA en 2026, c’est choisir un partenaire sur un domaine où les erreurs coûtent cher et restent invisibles longtemps. Un SaaS classique raté se voit immédiatement : page qui plante, UX ratée, feature manquante. Un produit IA mal conçu peut sembler fonctionnel pendant 6 mois avant que la dérive qualité ou la dette technique IA ne devienne bloquante.
À ce moment-là, il est trop tard pour changer de prestataire sans tout refaire. D’où l’importance d’un framework de sélection rigoureux dès le départ. Voici les 7 critères que nous recommandons à tout CTO qui engage une agence IA en 2026.
Critère 1 — L’expertise architecturale IA (pas juste « on sait utiliser OpenAI »)
Une agence qui dit « on intègre l’IA » ne dit rien. Ce qui distingue une agence IA compétente : sa capacité à architecturer un système IA complet — pas juste appeler une API.
Ce qu’il faut tester
Demandez un schéma d’architecture de l’un de leurs projets précédents. Vous devez y voir :
- Un pipeline de retrieval structuré (ingestion → chunking → embedding → stockage vectoriel → retrieval → reranker).
- Des garde-fous explicites (prompt injection, PII leakage, limits de coût).
- Une stratégie de fallback si le LLM est indisponible.
- Un système d’évaluation intégré.
- Un monitoring de production.
Signal d’alerte
Si la réponse est « on fait du prompt engineering », vous avez en face une agence qui vendra de la facade IA — rarement durable en production.
Critère 2 — Le protocole d’évaluation qualité
Un système IA sans évaluation automatisée se dégrade silencieusement. C’est le critère le plus sous-estimé par les CTOs qui sélectionnent une agence IA pour la première fois.
Ce qu’il faut exiger
- Jeu d’évaluation labellisé (50 à 500 scénarios selon la complexité) construit avec votre équipe métier dans les 2 premières semaines.
- Métriques factuelles : précision, rappel, taux d’hallucination, coût par requête, latence p95.
- Exécution à chaque release dans la CI/CD.
- Baseline humaine pour benchmarks réguliers.
Question test
« Montrez-moi le dashboard qualité d’un de vos projets en production. » Si l’agence n’a rien à montrer, vous apprenez une information critique en 30 secondes.
Critère 3 — La maîtrise des coûts tokens
Les API LLM représentent le poste récurrent le plus important (souvent 30-50 % de la facture mensuelle). Une agence compétente optimise cette facture dès la conception.
Ce qu’il faut valider
- Routage multi-modèles : utiliser GPT-4o-mini ou Claude Haiku pour les tâches simples, Sonnet ou GPT-4o pour les tâches complexes.
- Cache sémantique pour éviter de re-calculer les requêtes similaires.
- Prompt compression (réduction de 20-40 % des tokens d’input avec techniques de summarization).
- Batching quand la latence n’est pas critique.
- Monitoring du coût par feature pour identifier les dérives.
Benchmark concret
Sur un SaaS B2B avec 300 utilisateurs actifs, une agence compétente maintient la facture tokens sous 1 000-1 500 € / mois. Au-delà de 3 000 € pour le même usage, il y a un problème de conception.
Critère 4 — La stratégie de monitoring et d’observabilité
Un produit IA en production doit être observable. Sans instrumentation dès le départ, vous naviguez à l’aveugle.
Les 5 métriques minimales à suivre
- Latence p50, p95, p99 par endpoint IA.
- Coût tokens par utilisateur et par feature.
- Taux d’erreur et classification des erreurs (timeout, model error, content filter).
- Score qualité calculé par LLM-as-judge sur échantillon aléatoire.
- Drift détecté sur les embeddings et les patterns de requêtes.
Outils à voir en démo
LangSmith, Langfuse, Helicone, ou stack custom basée sur Grafana / OpenTelemetry. L’agence doit savoir montrer des dashboards, pas seulement en parler.
Critère 5 — Propriété intellectuelle, souveraineté, conformité
Un point souvent négligé qui peut coûter très cher après coup.
Ce qui doit être écrit dans le contrat
- Cession intégrale du code source, des modèles fine-tunés, des prompts et de la documentation.
- Absence de dépendance propriétaire (pas de framework maison non open-source, pas de SDK verrouillé).
- Hébergement européen explicité (France / UE) si vous traitez des données sensibles.
- Clause RGPD et conformité AI Act (notamment classification du système, documentation de transparence).
- Clause d’opt-out explicite sur l’entraînement des modèles tiers (OpenAI zero data retention, Anthropic no-training).
Question test
« Puis-je exporter 100 % du code et le déployer chez un concurrent demain ? » Si la réponse n’est pas un oui franc et immédiat, c’est un red flag.
Critère 6 — L’éligibilité CII / CIR
Un critère économique majeur trop souvent ignoré. Une agence agréée CIR permet à ses clients de récupérer 20 à 30 % du coût du projet.
Ce qu’il faut vérifier
- Agrément CIR officiel (vérifier sur la liste du ministère de la recherche).
- Dossier CIR prémâché : l’agence fournit la documentation technique nécessaire au dossier fiscal de son client.
- Connaissance du CII pour les dépenses d’innovation (plafond 400 k€ / an).
- Expérience concrète : avoir accompagné au moins 3-5 clients dans leur déclaration.
Calcul d’impact
Sur un projet à 80 000 € HT, l’agence agréée peut faire économiser 16 000 € (CII) à 24 000 € (CIR) à son client. C’est rarement indiqué sur le devis, mais c’est une vraie différence compétitive.
Critère 7 — Le mode de collaboration et la transmission
Le dernier critère — et pas le moindre. Un projet IA sera vivant longtemps après la livraison. La capacité de votre équipe à le maintenir dépend de la qualité de la transmission.
Ce qu’il faut exiger
- Démos toutes les 2 semaines avec un produit déployé et testable, pas un PowerPoint.
- Accès GitHub dès le jour 1 : pas de « code sur notre repo qu’on transférera à la fin ».
- Documentation technique vivante mise à jour en continu (architecture decision records, runbooks).
- Formation équipe de 1 à 2 demi-journées en fin de projet.
- Clause de garantie corrective (30 jours minimum après mise en production).
Red flag classique
Une agence qui refuse l’accès au repo pendant le développement. C’est le signal d’une volonté de vendor lock-in en fin de projet.
Framework de décision : scoring sur 70 points
Pour chaque critère, notez l’agence de 0 à 10 après un ou deux entretiens :
| Critère | Score /10 |
|---|---|
| Expertise architecturale IA | |
| Protocole d’évaluation qualité | |
| Maîtrise coûts tokens | |
| Monitoring & observabilité | |
| Propriété intellectuelle & conformité | |
| Éligibilité CII / CIR | |
| Collaboration & transmission | |
| Total | /70 |
Interprétation
- < 40 / 70 : pas sérieux, regardez ailleurs.
- 40-55 / 70 : acceptable sur des projets simples, à challenger sur les points faibles.
- 56-65 / 70 : agence solide, convient pour la plupart des projets IA.
- > 65 / 70 : agence d’élite, à privilégier sur les projets critiques ou complexes.
Les 3 pièges classiques à éviter
Piège 1 — Choisir sur le prix seul
Un écart de 15-20 % sur le devis initial disparaît face au coût d’une refonte à 9 mois (30-50 k€ + 2-3 mois perdus). Le moins cher est rarement le moins coûteux.
Piège 2 — Sous-estimer la maintenance
La maintenance d’un SaaS IA coûte 20-30 % du coût de développement par an. Une agence qui ne propose pas de contrat de maintenance structuré va vous laisser seul avec une bombe à retardement.
Piège 3 — Ne pas valider les références
Demandez systématiquement 2 références de clients en production, appelez-les directement. Questions à poser : délais respectés ? qualité tenue sur 6+ mois ? réactivité sur les incidents ? quels seraient les 3 points d’amélioration ?
Conclusion
Choisir une agence IA en 2026 n’est pas un choix de fournisseur, c’est un choix de partenaire sur 2-3 ans. Les 7 critères de ce framework sont construits pour maximiser vos chances de livrer un produit IA qui tient en production et minimiser le risque de refonte coûteuse.
Chez Forgit, agence IA spécialisée et agréée CIR, nous documentons publiquement notre processus de développement pour que nos clients puissent auditer chaque étape. Notre diagnostic IA vous donne en 2 semaines une feuille de route priorisée.
Vous évaluez plusieurs agences IA ? → Parlons-en — 30 minutes pour challenger votre brief et vous aider à comparer.