Forgit

RAG, fine-tuning ou prompt engineering : quelle technique pour quel cas d'usage ?

Comparatif décisionnel entre RAG, fine-tuning et prompt engineering. Coûts, délais, qualité et cas d'usage typiques pour chaque technique IA.

Forgit 14 min de lecture
Comparatif RAG, fine-tuning et prompt engineering
Comparatif RAG, fine-tuning et prompt engineering

Trois techniques, trois logiques différentes

Quand on veut adapter un LLM à un cas d’usage métier, trois leviers sont à disposition : le prompt engineering (comment on parle au modèle), le RAG (quelles connaissances on lui injecte) et le fine-tuning (comment on modifie le modèle lui-même).

Ces trois techniques ne s’opposent pas — elles se combinent. Mais par où commencer ? Laquelle privilégier selon le cas d’usage ? Comment éviter de sur-investir dans le fine-tuning alors qu’un RAG aurait suffi ?

Ce guide décisionnel compare les trois techniques sur 6 dimensions et propose un arbre de décision concret.

Rappel rapide : qu’est-ce que chaque technique ?

Prompt engineering

L’art de formuler l’instruction au modèle pour obtenir la meilleure sortie. Inclut : rôle système, few-shot examples, chain-of-thought, contraintes de format, self-consistency. Aucune modification du modèle, pas de données externes.

Exemple : demander à Claude de jouer le rôle d’un avocat junior qui structure une réponse en 3 points (argument, exception, précédent).

RAG (Retrieval-Augmented Generation)

On enrichit le prompt avec de la connaissance externe au moment de la requête. Typiquement : ingestion de documents, chunking, embedding, stockage vectoriel, retrieval des chunks pertinents, injection dans le prompt, génération.

Exemple : un copilot juridique qui retrouve les 5 précédents jurisprudentiels pertinents et les cite dans sa réponse.

Fine-tuning

On ré-entraîne le modèle sur un jeu de données labellisées pour modifier son comportement, son style ou son expertise.

Exemple : fine-tuner un modèle pour qu’il génère systématiquement du JSON au format défini par votre schema, avec le ton de voix de votre marque.

Comparaison sur 6 dimensions

DimensionPrompt engineeringRAGFine-tuning
Coût initial1-5 k€15-60 k€10-40 k€
Délai mise en oeuvre1-3 jours4-12 semaines4-8 semaines
Mise à jour de connaissanceImpossibleTemps réelRe-train obligatoire
Traçabilité des sourcesAucuneNativeAucune
Coût par requêteBasBas-moyenBas
Qualité sur style/formatMoyenneMoyenneÉlevée
HallucinationsFréquentesRéduitesVariables
MaintenanceTrès faibleMoyenneÉlevée

Points clés à retenir

  • Prompt engineering est toujours le point de départ : gratuit, rapide, parfois suffisant.
  • RAG gagne sur la connaissance à jour et la traçabilité.
  • Fine-tuning gagne sur le style de sortie stable et la haute fréquence de requêtes.

Arbre de décision : quelle technique pour votre cas ?

Votre besoin contient-il beaucoup de connaissance métier qui évolue ?
├── OUI → RAG (avec prompt engineering soigné)
│          Si format de sortie très strict → ajouter fine-tuning léger

└── NON → Le format / style de sortie est-il critique et répétitif ?
         ├── OUI (ex : toujours du JSON structuré, ton de marque précis)
         │       → Fine-tuning (après prompt engineering de base)

         └── NON → Prompt engineering avancé suffit
                   (few-shot, chain-of-thought, self-consistency)

Règle d’or

Toujours commencer par le prompt engineering. Mesurer la qualité obtenue. Identifier les faiblesses : connaissance manquante (→ RAG) ou style inconsistant (→ fine-tuning). Investir uniquement là où le prompt bute.

Cas d’usage typiques par technique

Prompt engineering suffit

  • Résumé de texte, reformulation, traduction.
  • Classification binaire ou multi-classes à faible enjeu.
  • Génération créative (marketing copy, idées, brainstorm).
  • Extraction d’information sur documents courts (< 5 pages).

RAG recommandé

  • Copilot juridique : exploite jurisprudence et textes de loi.
  • Support client augmenté : puise dans la base de connaissances produit.
  • Assistant de recherche : navigue dans une documentation d’entreprise.
  • Due diligence : analyse des documents spécifiques à une opération.
  • Chatbot médical : protocoles à jour, publications scientifiques.

Fine-tuning recommandé

  • Génération de JSON structuré conforme à un schema précis.
  • Tone of voice : respect strict d’une voix de marque.
  • Classification fine : catégorisation dans 50+ classes proches sémantiquement.
  • Optimisation coût : exécuter GPT-4o-mini fine-tuné au lieu de GPT-4o pour des tâches simples à haute fréquence.
  • Compliance spécifique : tâches soumises à des contraintes réglementaires (format, phrasé).

Combien ça coûte vraiment ? Benchmarks 2026

Prompt engineering

  • Atelier de 2-5 jours avec un prompt engineer senior : 1 500-4 000 €.
  • Évaluation continue : intégrée au pipeline de qualité.
  • Coût par requête : uniquement le coût tokens.

RAG

  • RAG basique (chunking fixe + embedding + retrieval simple) : 15-25 k€.
  • RAG avancé (chunking adaptatif + reranker + évaluation) : 30-60 k€.
  • Infrastructure mensuelle : base vectorielle 80-300 € + embeddings 50-200 €.
  • Détails complets dans notre article RAG en entreprise : guide de déploiement.

Fine-tuning

  • Préparation du dataset labellisé : 5 000-15 000 € (le vrai coût — souvent sous-estimé).
  • Entraînement managed (OpenAI, Anthropic) : 2 000-8 000 € pour 5 000-50 000 exemples.
  • Entraînement self-hosted (Llama, Mistral) : 5 000-20 000 € GPU + DevOps.
  • Évaluation & itérations : 3 000-10 000 €.
  • Ré-entraînement périodique (tous les 3-6 mois typiquement) : 30-50 % du coût initial.
  • Détails complets dans notre article Fine-tuning vs RAG.

Les 5 erreurs les plus fréquentes

Erreur 1 — Passer directement au fine-tuning

Beaucoup de fondateurs techniques croient que fine-tuner un modèle est le « signe » d’un projet IA sérieux. Dans 90 % des cas, un RAG bien fait avec prompt engineering soigné donne des résultats équivalents, pour 10 fois moins cher et avec une flexibilité supérieure.

Erreur 2 — Négliger le prompt engineering

Avant même de penser RAG ou fine-tuning, un bon prompt peut débloquer 30-50 % de qualité gratuitement. Skipper cette étape, c’est brûler 15-30 k€ de RAG qu’on aurait pu éviter.

Erreur 3 — Sur-ingénierie du RAG

Multiplier les étages (rerankers en cascade, query decomposition, hypothetical embeddings…) au lieu de partir d’un RAG simple et mesurer. Le RAG simple fonctionne dans 80 % des cas — ajouter de la sophistication uniquement quand l’évaluation montre une faiblesse précise.

Erreur 4 — Fine-tuner sans dataset de qualité

Un fine-tuning sur des données bruyantes, mal labellisées ou déséquilibrées dégrade le modèle. Investir 40 % du budget fine-tuning dans la qualité du dataset — c’est toujours rentable.

Erreur 5 — Pas d’évaluation factuelle

Aucune des trois techniques ne fonctionne sans jeu d’évaluation labellisé. « Ça a l’air mieux » n’est pas une métrique. Construire dès la semaine 2 du projet un jeu d’évaluation de 100-300 scénarios.

Comment choisir en pratique : la méthode Forgit

Sur chaque projet client, nous appliquons un protocole en 4 étapes :

  1. Semaine 1 : prompt engineering soigné + jeu d’évaluation. On mesure la baseline qualité.
  2. Semaine 2-3 : analyse des erreurs. Type 1 (connaissance manquante) → RAG. Type 2 (style, format) → fine-tuning léger. Type 3 (raisonnement) → techniques de prompting avancées.
  3. Semaine 3-8 : implémentation de la technique identifiée. Évaluation continue.
  4. Semaine 8-10 : décision sur une éventuelle 3ème couche (fine-tuning si RAG insuffisant, ou inverse).

Cette approche évite les investissements prématurés dans le fine-tuning et garantit que chaque euro dépensé en technique avancée répond à un problème mesuré.

Conclusion

Il n’y a pas de technique supérieure dans l’absolu. Il y a un bon choix pour chaque cas d’usage. Commencez toujours par le prompt engineering, passez au RAG quand la connaissance métier est le verrou, et ne fine-tunez que quand le style de sortie ou la performance coût-latence le justifient vraiment.

Chez Forgit, nous concevons des produits IA qui combinent ces trois techniques quand nécessaire — sans sur-ingénierie. Notre diagnostic IA identifie en 2 semaines la bonne architecture technique pour votre cas d’usage, avec un chiffrage précis.

Pour aller plus loin :


Un projet IA où vous hésitez entre ces techniques ? → Parlons-en

Un projet ? On en discute ?