RAG, fine-tuning ou prompt engineering : quelle technique pour quel cas d'usage ?
Comparatif décisionnel entre RAG, fine-tuning et prompt engineering. Coûts, délais, qualité et cas d'usage typiques pour chaque technique IA.
Trois techniques, trois logiques différentes
Quand on veut adapter un LLM à un cas d’usage métier, trois leviers sont à disposition : le prompt engineering (comment on parle au modèle), le RAG (quelles connaissances on lui injecte) et le fine-tuning (comment on modifie le modèle lui-même).
Ces trois techniques ne s’opposent pas — elles se combinent. Mais par où commencer ? Laquelle privilégier selon le cas d’usage ? Comment éviter de sur-investir dans le fine-tuning alors qu’un RAG aurait suffi ?
Ce guide décisionnel compare les trois techniques sur 6 dimensions et propose un arbre de décision concret.
Rappel rapide : qu’est-ce que chaque technique ?
Prompt engineering
L’art de formuler l’instruction au modèle pour obtenir la meilleure sortie. Inclut : rôle système, few-shot examples, chain-of-thought, contraintes de format, self-consistency. Aucune modification du modèle, pas de données externes.
Exemple : demander à Claude de jouer le rôle d’un avocat junior qui structure une réponse en 3 points (argument, exception, précédent).
RAG (Retrieval-Augmented Generation)
On enrichit le prompt avec de la connaissance externe au moment de la requête. Typiquement : ingestion de documents, chunking, embedding, stockage vectoriel, retrieval des chunks pertinents, injection dans le prompt, génération.
Exemple : un copilot juridique qui retrouve les 5 précédents jurisprudentiels pertinents et les cite dans sa réponse.
Fine-tuning
On ré-entraîne le modèle sur un jeu de données labellisées pour modifier son comportement, son style ou son expertise.
Exemple : fine-tuner un modèle pour qu’il génère systématiquement du JSON au format défini par votre schema, avec le ton de voix de votre marque.
Comparaison sur 6 dimensions
| Dimension | Prompt engineering | RAG | Fine-tuning |
|---|---|---|---|
| Coût initial | 1-5 k€ | 15-60 k€ | 10-40 k€ |
| Délai mise en oeuvre | 1-3 jours | 4-12 semaines | 4-8 semaines |
| Mise à jour de connaissance | Impossible | Temps réel | Re-train obligatoire |
| Traçabilité des sources | Aucune | Native | Aucune |
| Coût par requête | Bas | Bas-moyen | Bas |
| Qualité sur style/format | Moyenne | Moyenne | Élevée |
| Hallucinations | Fréquentes | Réduites | Variables |
| Maintenance | Très faible | Moyenne | Élevée |
Points clés à retenir
- Prompt engineering est toujours le point de départ : gratuit, rapide, parfois suffisant.
- RAG gagne sur la connaissance à jour et la traçabilité.
- Fine-tuning gagne sur le style de sortie stable et la haute fréquence de requêtes.
Arbre de décision : quelle technique pour votre cas ?
Votre besoin contient-il beaucoup de connaissance métier qui évolue ?
├── OUI → RAG (avec prompt engineering soigné)
│ Si format de sortie très strict → ajouter fine-tuning léger
│
└── NON → Le format / style de sortie est-il critique et répétitif ?
├── OUI (ex : toujours du JSON structuré, ton de marque précis)
│ → Fine-tuning (après prompt engineering de base)
│
└── NON → Prompt engineering avancé suffit
(few-shot, chain-of-thought, self-consistency)
Règle d’or
Toujours commencer par le prompt engineering. Mesurer la qualité obtenue. Identifier les faiblesses : connaissance manquante (→ RAG) ou style inconsistant (→ fine-tuning). Investir uniquement là où le prompt bute.
Cas d’usage typiques par technique
Prompt engineering suffit
- Résumé de texte, reformulation, traduction.
- Classification binaire ou multi-classes à faible enjeu.
- Génération créative (marketing copy, idées, brainstorm).
- Extraction d’information sur documents courts (< 5 pages).
RAG recommandé
- Copilot juridique : exploite jurisprudence et textes de loi.
- Support client augmenté : puise dans la base de connaissances produit.
- Assistant de recherche : navigue dans une documentation d’entreprise.
- Due diligence : analyse des documents spécifiques à une opération.
- Chatbot médical : protocoles à jour, publications scientifiques.
Fine-tuning recommandé
- Génération de JSON structuré conforme à un schema précis.
- Tone of voice : respect strict d’une voix de marque.
- Classification fine : catégorisation dans 50+ classes proches sémantiquement.
- Optimisation coût : exécuter GPT-4o-mini fine-tuné au lieu de GPT-4o pour des tâches simples à haute fréquence.
- Compliance spécifique : tâches soumises à des contraintes réglementaires (format, phrasé).
Combien ça coûte vraiment ? Benchmarks 2026
Prompt engineering
- Atelier de 2-5 jours avec un prompt engineer senior : 1 500-4 000 €.
- Évaluation continue : intégrée au pipeline de qualité.
- Coût par requête : uniquement le coût tokens.
RAG
- RAG basique (chunking fixe + embedding + retrieval simple) : 15-25 k€.
- RAG avancé (chunking adaptatif + reranker + évaluation) : 30-60 k€.
- Infrastructure mensuelle : base vectorielle 80-300 € + embeddings 50-200 €.
- Détails complets dans notre article RAG en entreprise : guide de déploiement.
Fine-tuning
- Préparation du dataset labellisé : 5 000-15 000 € (le vrai coût — souvent sous-estimé).
- Entraînement managed (OpenAI, Anthropic) : 2 000-8 000 € pour 5 000-50 000 exemples.
- Entraînement self-hosted (Llama, Mistral) : 5 000-20 000 € GPU + DevOps.
- Évaluation & itérations : 3 000-10 000 €.
- Ré-entraînement périodique (tous les 3-6 mois typiquement) : 30-50 % du coût initial.
- Détails complets dans notre article Fine-tuning vs RAG.
Les 5 erreurs les plus fréquentes
Erreur 1 — Passer directement au fine-tuning
Beaucoup de fondateurs techniques croient que fine-tuner un modèle est le « signe » d’un projet IA sérieux. Dans 90 % des cas, un RAG bien fait avec prompt engineering soigné donne des résultats équivalents, pour 10 fois moins cher et avec une flexibilité supérieure.
Erreur 2 — Négliger le prompt engineering
Avant même de penser RAG ou fine-tuning, un bon prompt peut débloquer 30-50 % de qualité gratuitement. Skipper cette étape, c’est brûler 15-30 k€ de RAG qu’on aurait pu éviter.
Erreur 3 — Sur-ingénierie du RAG
Multiplier les étages (rerankers en cascade, query decomposition, hypothetical embeddings…) au lieu de partir d’un RAG simple et mesurer. Le RAG simple fonctionne dans 80 % des cas — ajouter de la sophistication uniquement quand l’évaluation montre une faiblesse précise.
Erreur 4 — Fine-tuner sans dataset de qualité
Un fine-tuning sur des données bruyantes, mal labellisées ou déséquilibrées dégrade le modèle. Investir 40 % du budget fine-tuning dans la qualité du dataset — c’est toujours rentable.
Erreur 5 — Pas d’évaluation factuelle
Aucune des trois techniques ne fonctionne sans jeu d’évaluation labellisé. « Ça a l’air mieux » n’est pas une métrique. Construire dès la semaine 2 du projet un jeu d’évaluation de 100-300 scénarios.
Comment choisir en pratique : la méthode Forgit
Sur chaque projet client, nous appliquons un protocole en 4 étapes :
- Semaine 1 : prompt engineering soigné + jeu d’évaluation. On mesure la baseline qualité.
- Semaine 2-3 : analyse des erreurs. Type 1 (connaissance manquante) → RAG. Type 2 (style, format) → fine-tuning léger. Type 3 (raisonnement) → techniques de prompting avancées.
- Semaine 3-8 : implémentation de la technique identifiée. Évaluation continue.
- Semaine 8-10 : décision sur une éventuelle 3ème couche (fine-tuning si RAG insuffisant, ou inverse).
Cette approche évite les investissements prématurés dans le fine-tuning et garantit que chaque euro dépensé en technique avancée répond à un problème mesuré.
Conclusion
Il n’y a pas de technique supérieure dans l’absolu. Il y a un bon choix pour chaque cas d’usage. Commencez toujours par le prompt engineering, passez au RAG quand la connaissance métier est le verrou, et ne fine-tunez que quand le style de sortie ou la performance coût-latence le justifient vraiment.
Chez Forgit, nous concevons des produits IA qui combinent ces trois techniques quand nécessaire — sans sur-ingénierie. Notre diagnostic IA identifie en 2 semaines la bonne architecture technique pour votre cas d’usage, avec un chiffrage précis.
Pour aller plus loin :
- Fine-tuning vs RAG : quelle approche choisir pour votre produit IA en 2026
- Prompt engineering avancé : 8 techniques pour optimiser vos applications IA en production
- RAG en entreprise : guide de déploiement 2026
Un projet IA où vous hésitez entre ces techniques ? → Parlons-en