Quel modèle d'embeddings choisir pour un RAG corporate en français ?

Voyage 3 obtient les meilleurs scores MTEB-fr en API avec un contexte de 32k tokens qui limite le chunking complexe. Si la souveraineté est requise (banque, assurance, santé, secteur public), privilégiez Mistral Embed, hébergé en EU. Dans les deux cas, couplez systématiquement avec un reranker (Cohere Rerank v3 ou BGE Reranker) sur le top-30 vers top-3.

À partir de quel volume le self-hosting d'un modèle d'embeddings devient-il rentable ?

À partir d'environ 50 millions de tokens embedés par mois, le self-hosting d'un modèle open source comme BGE M3 (sur GPU L4 ou A10G) devient rentable face aux API payantes. Le coût tombe à environ 0,005 dollar par million de tokens contre 0,02 à 0,18 dollar pour les API commerciales.

Quelle dimension de vecteur faut-il choisir pour ses embeddings ?

768 dimensions offre le meilleur compromis standard, 1024 apporte typiquement plus de 5 pour cent de recall. Les dimensions 1536 à 3072 sont premium mais le gain est marginal face au coût de stockage : un index 1M vecteurs en 3072 dim coûte environ 12 Go RAM contre 3 Go en 768. Les modèles Matryoshka permettent de tronquer la dimension sans réentraîner.

Le score MTEB suffit-il pour choisir un modèle d'embeddings ?

Non. Un score MTEB global élevé ne garantit pas la performance sur votre domaine spécifique (médical, juridique, code, industriel). Il faut mesurer sur 200 à 500 paires positives et négatives extraites de votre propre corpus avant de figer un choix. Pour un corpus francophone, MTEB-fr est plus représentatif que le benchmark global.

Combien de temps faut-il pour benchmarker des modèles d'embeddings ?

Une journée suffit avec une méthodologie ciblée : échantillonner 200 à 500 requêtes réelles avec ground truth, embedder avec 3 candidats (Voyage 3, OpenAI 3-small, Mistral Embed), indexer dans Qdrant local, puis mesurer Recall@5, Recall@10 et MRR. Trois jours-homme permettent d'éviter 6 mois de frustration produit et de gagner 10 à 30 points de recall.

Embeddings : comment choisir le bon modèle pour votre cas d'usage

Le choix du modèle d’embeddings est souvent l’angle mort des projets RAG, search ou classification IA. Beaucoup d’équipes prennent par défaut text-embedding-3-small d’OpenAI sans benchmarker, et découvrent six mois plus tard que leur recall stagne à 60 % alors qu’un Voyage AI ou un BGE M3 aurait livré 85 % sur le même corpus français. À l’inverse, certaines équipes choisissent un gros modèle 3072 dimensions « pour être tranquilles » et explosent leur facture vector DB inutilement. Cet article fait le tour des critères de choix (dimension, performance MTEB, multilingue, coût, latence, taille de contexte) et propose un comparatif des modèles dominants en 2026 (OpenAI text-embedding-3, Voyage AI, Cohere Embed v3, Mistral Embed, BGE M3, E5 multilingue) avec des recommandations par cas d’usage : RAG corporate français, search produit e-commerce, dédoublonnage et classification.

1. Comprendre ce qu’est vraiment un bon embedding

Un embedding est une représentation vectorielle d’un texte (mot, phrase, document) dans un espace de quelques centaines à quelques milliers de dimensions. Deux textes sémantiquement proches y sont proches au sens de la similarité cosinus.

Mais « proches au sens de la similarité » n’est pas une qualité absolue : c’est un alignement avec ce que vous voulez retrouver. Un embedding excellent pour du clustering peut être médiocre pour du retrieval, et inversement. D’où l’importance d’évaluer sur votre cas d’usage, pas seulement de regarder un benchmark agrégé.

2. Les six critères de choix

Critère 1 : performance — benchmark MTEB et alternatives

MTEB (Massive Text Embedding Benchmark) est le standard de fait : 56 datasets couvrant retrieval, clustering, classification, reranking, semantic textual similarity. Le classement des modèles est tenu à jour publiquement selon le MTEB Leaderboard sur Hugging Face. Pour le français, MTEB-fr existe depuis 2024 et est plus représentatif si votre corpus est francophone.

Attention : un score MTEB élevé global ne garantit pas la performance sur votre domaine (médical, juridique, code, technique industriel). Mesurez sur 200-500 paires positives/négatives extraites de votre corpus avant de figer un choix.

Critère 2 : dimension du vecteur

Dimension	Impact
384	Très léger, rapide, faible coût stockage
768	Standard, bon compromis
1024	Confortable, recall typiquement >+5 % vs 768
1536-3072	Premium, gain marginal vs coût stockage important

Un index 1M vecteurs en 3072 dim coûte ~12 Go RAM, contre ~3 Go en 768 dim. Sur Pinecone, Qdrant Cloud ou Weaviate Cloud, la facture suit.

Bonne nouvelle : les modèles modernes (OpenAI text-embedding-3, Mistral Embed, Nomic Embed) supportent Matryoshka Representation Learning — vous pouvez tronquer la dimension sans réentraîner avec une perte minime jusqu’à un certain seuil.

Critère 3 : multilingue ou non

Si votre corpus mélange français + anglais (cas typique d’une entreprise française qui consomme aussi de la doc EN), un modèle nativement multilingue comme BGE M3, E5 multilingual, Cohere multilingual ou Voyage sera nettement supérieur à un modèle anglo-centré. Les embeddings d’OpenAI sont corrects en français mais clairement entraînés majoritairement en anglais.

Critère 4 : coût

Modèle	Tarif input ($/M tokens)	Notes
OpenAI text-embedding-3-small	0,02	Très bon rapport qualité/prix
OpenAI text-embedding-3-large	0,13	Premium
Voyage voyage-3	0,06	Top MTEB-fr
Voyage voyage-3-large	0,18	Premium retrieval
Cohere Embed v3	0,10	Multilingue solide
Mistral Embed	0,10	EU, souverain
BGE M3 (self-host)	~0,005 (coût GPU)	Open source
E5-mistral-7b (self-host)	~0,01	Open source heavy

À partir de ~50 millions de tokens embedés par mois, le self-hosting (BGE M3 sur L4 ou A10G) devient rentable.

Critère 5 : latence et taille de contexte

Modèle	Context max	Latence typique (1k tokens)
OpenAI text-embedding-3	8 192	100-200 ms
Voyage voyage-3	32 000	200-300 ms
Cohere Embed v3	512	80-150 ms
Mistral Embed	8 192	100-200 ms
BGE M3	8 192	50-100 ms (self-host GPU)

Cohere Embed v3 a une fenêtre courte (512 tokens), ce qui force un chunking plus agressif. Voyage 3 supporte 32k tokens, utile pour des documents longs sans découpage complexe.

Critère 6 : souveraineté et conformité

Si vous opérez sur données sensibles (santé, défense, finance régulée), Mistral Embed (Paris, hébergement EU) et les modèles open source self-hostés sur cloud souverain (OVH, Outscale, Scaleway) sont des choix structurants au-delà de la performance brute.

3. Tableau comparatif synthétique

Modèle	Dim	Perfo MTEB-fr	Multilingue	Coût	Souverain	Force
OpenAI 3-small	1536 (truncable)	Bonne	Oui (limité)	Bas	Non	Référence rapport qualité/prix
OpenAI 3-large	3072 (truncable)	Très bonne	Oui (limité)	Moyen	Non	Précision, écosystème
Voyage 3	1024	Très bonne	Oui	Bas	Non	Top FR, contexte 32k
Voyage 3-large	1024	Excellente	Oui	Moyen	Non	Retrieval premium
Cohere Embed v3	1024	Bonne	Oui (excellent)	Moyen	Non	Multilingue, reranker associé
Mistral Embed	1024	Très bonne	Oui (FR fort)	Moyen	EU	Souveraineté, qualité FR
BGE M3	1024	Excellente	Oui (100+)	Très bas (self-host)	Oui (self-host)	Open source, multi-fonction
E5 multilingual	1024	Bonne	Oui	Très bas (self-host)	Oui (self-host)	Open source, léger

4. Recommandations par cas d’usage

RAG corporate français (intranet, doc métier, support)

Recommandation principale : Voyage 3 ou Mistral Embed si souveraineté requise.

Voyage 3 obtient les meilleurs scores MTEB-fr en API, contexte 32k pour limiter le chunking complexe.
Mistral Embed pour les acteurs régulés (banque, assurance, secteur public, santé).
Couplez systématiquement avec un reranker (Cohere Rerank v3 ou BGE Reranker) sur le top-30 → top-3.

Pour le déploiement complet, voir notre guide RAG entreprise 2026.

Search produit e-commerce (catalogue, descriptions FR/EN)

Recommandation principale : Cohere Embed v3 multilingual ou OpenAI text-embedding-3-small.

Catalogue produit = textes courts (titre + description) → la limite 512 tokens de Cohere n’est pas pénalisante.
Cohere Rerank v3 directement intégrable pour la phase de reranking.
OpenAI 3-small en 768 ou 1024 tronqué = excellent rapport qualité/prix sur des volumes massifs.

Dédoublonnage / clustering / déduplication CRM

Recommandation principale : BGE M3 self-host ou OpenAI 3-small tronqué à 384.

Vous embedez probablement des millions de records → coût primordial.
La performance absolue compte moins que la séparabilité des clusters.
BGE M3 multi-fonction (dense + sparse + ColBERT) particulièrement utile pour matching de noms / adresses.

Classification (intent, sentiment, topic)

Recommandation principale : embeddings + classifieur léger avec BGE M3, E5 ou OpenAI 3-small.

Pas besoin du top du top en retrieval : la couche classifier (logreg, XGBoost, MLP léger) compense.
Self-host pertinent dès que volume > 5M docs/mois.
Avantage : indépendance modèle (vous changez la couche classifier sans réembedder).

Code search / documentation technique

Recommandation principale : Voyage code-3 ou OpenAI text-embedding-3-large sur 3072 dim.

Voyage propose un modèle dédié au code, gros gain sur retrieval de fonctions.
À défaut, OpenAI large en pleine dimension performe bien sur du code commenté.

5. Stack pratique : index et infra

Choisir un modèle d’embedding est indissociable du choix d’index vectoriel : la dimension impacte directement coût et latence.

Vector DB	Force	Quand
Postgres + pgvector	Simple, transactionnel	<10M vecteurs, projet single source-of-truth
Qdrant	Performant, open source	scale-up, on-prem possible
Weaviate	Hybrid search natif	besoin BM25 + vector
Pinecone	Managé, scale	gros volumes, peu d’ops
Milvus	Open source haute échelle	>100M vecteurs

Pour le détail de la couche infra, lisez notre fiche bases vectorielles : choix techniques 2026.

6. Méthodologie d’évaluation rapide (1 journée)

Échantillon : 200-500 requêtes utilisateurs réelles + ground truth (doc attendu).
Embedder chaque requête et chaque doc avec 3 candidats (typiquement Voyage 3, OpenAI 3-small, Mistral Embed).
Indexer dans Qdrant local en 3 collections.
Mesurer : Recall@5, Recall@10, MRR.
Coupler avec un reranker pour mesurer le gain.
Décider sur la combinaison coût × Recall@10 qui dépasse votre seuil métier.

Trois jours-homme pour économiser 6 mois de frustration produit : c’est probablement le meilleur ROI d’ingénierie sur un projet RAG.

Conclusion : ne déléguez pas le choix au défaut

Le bon embedding est rarement le plus vendu, et presque jamais celui que votre stagiaire a câblé en premier dans le tutoriel LangChain. C’est le résultat d’une évaluation sur votre corpus, votre langue, votre dimension de contrainte (coût, souveraineté, latence). En 2026, l’écosystème offre des options excellentes en API et open source : prenez une journée pour benchmarker, vous gagnerez 10 à 30 points de recall et la moitié de votre facture vector DB.

Notre équipe accompagne la conception et le déploiement de moteurs RAG et search dans le cadre de projets SaaS IA — du choix d’embedding à la mise en production.

Vous avez un projet IA ? → Parlons-en