Comment différencier une vraie agence IA d'une agence dev qui fait du 'wrapping' ?

Posez 4 questions techniques lors du premier échange : (1) stratégie de chunking d'un document de 100 pages, (2) quand utiliser un reranker, (3) protocole d'évaluation qualité d'un RAG, (4) comment monitorer la dérive d'un agent en production. Une réponse précise sur les 4 = signal fort. Des généralités = signal d'alerte.

Est-il risqué de prendre une agence sans référence dans mon secteur ?

Moins que vous ne pensez, sur un projet IA. Les patterns techniques (RAG, agents, évaluation) se transposent d'un secteur à l'autre. Ce qui compte : la compréhension rapide de votre métier (capacité à poser les bonnes questions dans le premier atelier) et l'expérience technique IA. Une agence IA avec 2-3 références en production hors secteur est plus sûre qu'une agence sectorielle qui débute en IA.

Combien de propositions d'agence demander avant de choisir ?

3 propositions sérieuses suffisent. Au-delà, vous perdez du temps et vous entrez dans une comparaison sur le prix plutôt que sur la valeur. Structurez votre RFP autour de 7 critères précis (voir l'article), demandez un chiffrage sur un périmètre identique, et privilégiez les agences qui challengent votre brief.

Comment vérifier la propriété du code dans un contrat avec une agence IA ?

Exigez une clause explicite de cession des droits (code source, modèles fine-tunés, prompts, documentation) dès la signature. Vérifiez qu'il n'y a pas de dépendance cachée à des composants propriétaires de l'agence (framework maison, SDK verrouillé). Le code doit être livré sur VOTRE GitHub dès le premier commit.

Quel budget minimum pour une agence IA professionnelle ?

Un MVP IA crédible démarre à 15 000 € HT. En dessous, vous obtenez un prototype qui ne tiendra pas la production. Pour un SaaS IA complet : 40 000-150 000 € HT selon la complexité. Ces budgets peuvent être réduits de 30 à 50 % avec le CII (20 %) et le CIR (30 %) si l'agence est agréée.

Choisir son agence IA en 2026 : les 7 critères qu'un CTO doit exiger

Pourquoi choisir une agence IA est différent de choisir une agence dev

Choisir une agence IA en 2026, c’est choisir un partenaire sur un domaine où les erreurs coûtent cher et restent invisibles longtemps. Un SaaS classique raté se voit immédiatement : page qui plante, UX ratée, feature manquante. Un produit IA mal conçu peut sembler fonctionnel pendant 6 mois avant que la dérive qualité ou la dette technique IA ne devienne bloquante.

À ce moment-là, il est trop tard pour changer de prestataire sans tout refaire. D’où l’importance d’un framework de sélection rigoureux dès le départ. Voici les 7 critères que nous recommandons à tout CTO qui engage une agence IA en 2026.

Critère 1 — L’expertise architecturale IA (pas juste « on sait utiliser OpenAI »)

Une agence qui dit « on intègre l’IA » ne dit rien. Ce qui distingue une agence IA compétente : sa capacité à architecturer un système IA complet — pas juste appeler une API.

Ce qu’il faut tester

Demandez un schéma d’architecture de l’un de leurs projets précédents. Vous devez y voir :

Un pipeline de retrieval structuré (ingestion → chunking → embedding → stockage vectoriel → retrieval → reranker).
Des garde-fous explicites (prompt injection, PII leakage, limits de coût).
Une stratégie de fallback si le LLM est indisponible.
Un système d’évaluation intégré.
Un monitoring de production.

Signal d’alerte

Si la réponse est « on fait du prompt engineering », vous avez en face une agence qui vendra de la facade IA — rarement durable en production.

Critère 2 — Le protocole d’évaluation qualité

Un système IA sans évaluation automatisée se dégrade silencieusement. C’est le critère le plus sous-estimé par les CTOs qui sélectionnent une agence IA pour la première fois.

Ce qu’il faut exiger

Jeu d’évaluation labellisé (50 à 500 scénarios selon la complexité) construit avec votre équipe métier dans les 2 premières semaines.
Métriques factuelles : précision, rappel, taux d’hallucination, coût par requête, latence p95.
Exécution à chaque release dans la CI/CD.
Baseline humaine pour benchmarks réguliers.

Question test

« Montrez-moi le dashboard qualité d’un de vos projets en production. » Si l’agence n’a rien à montrer, vous apprenez une information critique en 30 secondes.

Critère 3 — La maîtrise des coûts tokens

Les API LLM représentent le poste récurrent le plus important (souvent 30-50 % de la facture mensuelle). Une agence compétente optimise cette facture dès la conception.

Ce qu’il faut valider

Routage multi-modèles : utiliser GPT-4o-mini ou Claude Haiku pour les tâches simples, Sonnet ou GPT-4o pour les tâches complexes.
Cache sémantique pour éviter de re-calculer les requêtes similaires.
Prompt compression (réduction de 20-40 % des tokens d’input avec techniques de summarization).
Batching quand la latence n’est pas critique.
Monitoring du coût par feature pour identifier les dérives.

Benchmark concret

Sur un SaaS B2B avec 300 utilisateurs actifs, une agence compétente maintient la facture tokens sous 1 000-1 500 € / mois. Au-delà de 3 000 € pour le même usage, il y a un problème de conception.

Critère 4 — La stratégie de monitoring et d’observabilité

Un produit IA en production doit être observable. Sans instrumentation dès le départ, vous naviguez à l’aveugle.

Les 5 métriques minimales à suivre

Latence p50, p95, p99 par endpoint IA.
Coût tokens par utilisateur et par feature.
Taux d’erreur et classification des erreurs (timeout, model error, content filter).
Score qualité calculé par LLM-as-judge sur échantillon aléatoire.
Drift détecté sur les embeddings et les patterns de requêtes.

Outils à voir en démo

LangSmith, Langfuse, Helicone, ou stack custom basée sur Grafana / OpenTelemetry. L’agence doit savoir montrer des dashboards, pas seulement en parler.

Critère 5 — Propriété intellectuelle, souveraineté, conformité

Un point souvent négligé qui peut coûter très cher après coup.

Ce qui doit être écrit dans le contrat

Cession intégrale du code source, des modèles fine-tunés, des prompts et de la documentation.
Absence de dépendance propriétaire (pas de framework maison non open-source, pas de SDK verrouillé).
Hébergement européen explicité (France / UE) si vous traitez des données sensibles.
Clause RGPD et conformité AI Act (notamment classification du système, documentation de transparence).
Clause d’opt-out explicite sur l’entraînement des modèles tiers (OpenAI zero data retention, Anthropic no-training).

Question test

« Puis-je exporter 100 % du code et le déployer chez un concurrent demain ? » Si la réponse n’est pas un oui franc et immédiat, c’est un red flag.

Critère 6 — L’éligibilité CII / CIR

Un critère économique majeur trop souvent ignoré. Une agence agréée CIR permet à ses clients de récupérer 20 à 30 % du coût du projet.

Ce qu’il faut vérifier

Agrément CIR officiel (vérifier sur la liste du ministère de la recherche).
Dossier CIR prémâché : l’agence fournit la documentation technique nécessaire au dossier fiscal de son client.
Connaissance du CII pour les dépenses d’innovation (plafond 400 k€ / an).
Expérience concrète : avoir accompagné au moins 3-5 clients dans leur déclaration.

Calcul d’impact

Sur un projet à 80 000 € HT, l’agence agréée peut faire économiser 16 000 € (CII) à 24 000 € (CIR) à son client. C’est rarement indiqué sur le devis, mais c’est une vraie différence compétitive.

Critère 7 — Le mode de collaboration et la transmission

Le dernier critère — et pas le moindre. Un projet IA sera vivant longtemps après la livraison. La capacité de votre équipe à le maintenir dépend de la qualité de la transmission.

Ce qu’il faut exiger

Démos toutes les 2 semaines avec un produit déployé et testable, pas un PowerPoint.
Accès GitHub dès le jour 1 : pas de « code sur notre repo qu’on transférera à la fin ».
Documentation technique vivante mise à jour en continu (architecture decision records, runbooks).
Formation équipe de 1 à 2 demi-journées en fin de projet.
Clause de garantie corrective (30 jours minimum après mise en production).

Red flag classique

Une agence qui refuse l’accès au repo pendant le développement. C’est le signal d’une volonté de vendor lock-in en fin de projet.

Framework de décision : scoring sur 70 points

Pour chaque critère, notez l’agence de 0 à 10 après un ou deux entretiens :

Critère	Score /10
Expertise architecturale IA
Protocole d’évaluation qualité
Maîtrise coûts tokens
Monitoring & observabilité
Propriété intellectuelle & conformité
Éligibilité CII / CIR
Collaboration & transmission
Total	/70

Interprétation

< 40 / 70 : pas sérieux, regardez ailleurs.
40-55 / 70 : acceptable sur des projets simples, à challenger sur les points faibles.
56-65 / 70 : agence solide, convient pour la plupart des projets IA.
> 65 / 70 : agence d’élite, à privilégier sur les projets critiques ou complexes.

Les 3 pièges classiques à éviter

Piège 1 — Choisir sur le prix seul

Un écart de 15-20 % sur le devis initial disparaît face au coût d’une refonte à 9 mois (30-50 k€ + 2-3 mois perdus). Le moins cher est rarement le moins coûteux.

Piège 2 — Sous-estimer la maintenance

La maintenance d’un SaaS IA coûte 20-30 % du coût de développement par an. Une agence qui ne propose pas de contrat de maintenance structuré va vous laisser seul avec une bombe à retardement.

Piège 3 — Ne pas valider les références

Demandez systématiquement 2 références de clients en production, appelez-les directement. Questions à poser : délais respectés ? qualité tenue sur 6+ mois ? réactivité sur les incidents ? quels seraient les 3 points d’amélioration ?

Comment reconnaître la meilleure agence IA

Au-delà du scoring sur 70 points, quelques marqueurs distinctifs séparent une agence IA réellement compétente d’une agence qui « fait de l’IA ». Ce sont les signaux à chercher avant de signer.

Elle vous montre, elle ne raconte pas. Une dashboard qualité en production, un schéma d’architecture réel, un repo GitHub accessible dès le jour 1. La meilleure agence IA prouve par la démo, pas par le PowerPoint. Si tout reste au conditionnel, c’est de la façade.
Elle parle évaluation et coûts tokens spontanément. Les agences sérieuses abordent d’elles-mêmes le jeu d’évaluation labellisé, le taux d’hallucination, la latence p95 et le coût par feature. Ces sujets sont les premiers sacrifiés par les amateurs, parce qu’ils sont invisibles à la livraison et bloquants à 6 mois.
Elle vous laisse partir. Cession intégrale du code, des prompts et des modèles fine-tunés, sans dépendance propriétaire cachée. Une agence qui répond « oui, vous pouvez tout exporter et le déployer ailleurs demain » sans hésiter inspire plus confiance que celle qui verrouille.
Elle challenge votre brief. Les meilleures ne disent pas oui à tout : elles repriorisent, écartent les features inutiles et défendent leurs choix techniques. C’est le signe d’une équipe qui pense produit, pas d’un exécutant qui facture à l’heure.
Elle pense maintenance et CII/CIR. Un contrat de maintenance structuré (20-30 % du coût de dev par an) et un agrément CIR qui fait économiser 20 à 30 % du projet : deux marqueurs d’une agence qui pense le produit IA sur 2-3 ans, pas sur la durée d’une facture.

La meilleure agence IA pour vous n’est pas la plus connue : c’est celle qui coche ces marqueurs et comprend le plus vite votre métier lors du premier atelier.

Conclusion

Choisir une agence IA en 2026 n’est pas un choix de fournisseur, c’est un choix de partenaire sur 2-3 ans. Les 7 critères de ce framework sont construits pour maximiser vos chances de livrer un produit IA qui tient en production et minimiser le risque de refonte coûteuse.

Chez Forgit, agence IA spécialisée et agréée CIR, nous documentons publiquement notre processus de développement pour que nos clients puissent auditer chaque étape. Notre diagnostic IA vous donne en 2 semaines une feuille de route priorisée.

Vous évaluez plusieurs agences IA ? → Parlons-en — 30 minutes pour challenger votre brief et vous aider à comparer.