Forgit

Embeddings : comment choisir le bon modèle pour votre cas d'usage

Embeddings en 2026 : comparatif OpenAI, Voyage, Cohere, Mistral, BGE M3, E5. Critères dimension, MTEB, multilingue, coût, latence par cas d'usage.

Forgit 10 min de lecture
Embeddings : comparatif des modèles pour RAG, search, classification
Embeddings : comparatif des modèles pour RAG, search, classification

Le choix du modèle d’embeddings est souvent l’angle mort des projets RAG, search ou classification IA. Beaucoup d’équipes prennent par défaut text-embedding-3-small d’OpenAI sans benchmarker, et découvrent six mois plus tard que leur recall stagne à 60 % alors qu’un Voyage AI ou un BGE M3 aurait livré 85 % sur le même corpus français. À l’inverse, certaines équipes choisissent un gros modèle 3072 dimensions « pour être tranquilles » et explosent leur facture vector DB inutilement. Cet article fait le tour des critères de choix (dimension, performance MTEB, multilingue, coût, latence, taille de contexte) et propose un comparatif des modèles dominants en 2026 (OpenAI text-embedding-3, Voyage AI, Cohere Embed v3, Mistral Embed, BGE M3, E5 multilingue) avec des recommandations par cas d’usage : RAG corporate français, search produit e-commerce, dédoublonnage et classification.

1. Comprendre ce qu’est vraiment un bon embedding

Un embedding est une représentation vectorielle d’un texte (mot, phrase, document) dans un espace de quelques centaines à quelques milliers de dimensions. Deux textes sémantiquement proches y sont proches au sens de la similarité cosinus.

Mais « proches au sens de la similarité » n’est pas une qualité absolue : c’est un alignement avec ce que vous voulez retrouver. Un embedding excellent pour du clustering peut être médiocre pour du retrieval, et inversement. D’où l’importance d’évaluer sur votre cas d’usage, pas seulement de regarder un benchmark agrégé.

2. Les six critères de choix

Critère 1 : performance — benchmark MTEB et alternatives

MTEB (Massive Text Embedding Benchmark) est le standard de fait : 56 datasets couvrant retrieval, clustering, classification, reranking, semantic textual similarity. Pour le français, MTEB-fr existe depuis 2024 et est plus représentatif si votre corpus est francophone.

Attention : un score MTEB élevé global ne garantit pas la performance sur votre domaine (médical, juridique, code, technique industriel). Mesurez sur 200-500 paires positives/négatives extraites de votre corpus avant de figer un choix.

Critère 2 : dimension du vecteur

DimensionImpact
384Très léger, rapide, faible coût stockage
768Standard, bon compromis
1024Confortable, recall typiquement >+5 % vs 768
1536-3072Premium, gain marginal vs coût stockage important

Un index 1M vecteurs en 3072 dim coûte ~12 Go RAM, contre ~3 Go en 768 dim. Sur Pinecone, Qdrant Cloud ou Weaviate Cloud, la facture suit.

Bonne nouvelle : les modèles modernes (OpenAI text-embedding-3, Mistral Embed, Nomic Embed) supportent Matryoshka Representation Learning — vous pouvez tronquer la dimension sans réentraîner avec une perte minime jusqu’à un certain seuil.

Critère 3 : multilingue ou non

Si votre corpus mélange français + anglais (cas typique d’une entreprise française qui consomme aussi de la doc EN), un modèle nativement multilingue comme BGE M3, E5 multilingual, Cohere multilingual ou Voyage sera nettement supérieur à un modèle anglo-centré. Les embeddings d’OpenAI sont corrects en français mais clairement entraînés majoritairement en anglais.

Critère 4 : coût

ModèleTarif input ($/M tokens)Notes
OpenAI text-embedding-3-small0,02Très bon rapport qualité/prix
OpenAI text-embedding-3-large0,13Premium
Voyage voyage-30,06Top MTEB-fr
Voyage voyage-3-large0,18Premium retrieval
Cohere Embed v30,10Multilingue solide
Mistral Embed0,10EU, souverain
BGE M3 (self-host)~0,005 (coût GPU)Open source
E5-mistral-7b (self-host)~0,01Open source heavy

À partir de ~50 millions de tokens embedés par mois, le self-hosting (BGE M3 sur L4 ou A10G) devient rentable.

Critère 5 : latence et taille de contexte

ModèleContext maxLatence typique (1k tokens)
OpenAI text-embedding-38 192100-200 ms
Voyage voyage-332 000200-300 ms
Cohere Embed v351280-150 ms
Mistral Embed8 192100-200 ms
BGE M38 19250-100 ms (self-host GPU)

Cohere Embed v3 a une fenêtre courte (512 tokens), ce qui force un chunking plus agressif. Voyage 3 supporte 32k tokens, utile pour des documents longs sans découpage complexe.

Critère 6 : souveraineté et conformité

Si vous opérez sur données sensibles (santé, défense, finance régulée), Mistral Embed (Paris, hébergement EU) et les modèles open source self-hostés sur cloud souverain (OVH, Outscale, Scaleway) sont des choix structurants au-delà de la performance brute.

3. Tableau comparatif synthétique

ModèleDimPerfo MTEB-frMultilingueCoûtSouverainForce
OpenAI 3-small1536 (truncable)BonneOui (limité)BasNonRéférence rapport qualité/prix
OpenAI 3-large3072 (truncable)Très bonneOui (limité)MoyenNonPrécision, écosystème
Voyage 31024Très bonneOuiBasNonTop FR, contexte 32k
Voyage 3-large1024ExcellenteOuiMoyenNonRetrieval premium
Cohere Embed v31024BonneOui (excellent)MoyenNonMultilingue, reranker associé
Mistral Embed1024Très bonneOui (FR fort)MoyenEUSouveraineté, qualité FR
BGE M31024ExcellenteOui (100+)Très bas (self-host)Oui (self-host)Open source, multi-fonction
E5 multilingual1024BonneOuiTrès bas (self-host)Oui (self-host)Open source, léger

4. Recommandations par cas d’usage

RAG corporate français (intranet, doc métier, support)

Recommandation principale : Voyage 3 ou Mistral Embed si souveraineté requise.

  • Voyage 3 obtient les meilleurs scores MTEB-fr en API, contexte 32k pour limiter le chunking complexe.
  • Mistral Embed pour les acteurs régulés (banque, assurance, secteur public, santé).
  • Couplez systématiquement avec un reranker (Cohere Rerank v3 ou BGE Reranker) sur le top-30 → top-3.

Pour le déploiement complet, voir notre guide RAG entreprise 2026.

Search produit e-commerce (catalogue, descriptions FR/EN)

Recommandation principale : Cohere Embed v3 multilingual ou OpenAI text-embedding-3-small.

  • Catalogue produit = textes courts (titre + description) → la limite 512 tokens de Cohere n’est pas pénalisante.
  • Cohere Rerank v3 directement intégrable pour la phase de reranking.
  • OpenAI 3-small en 768 ou 1024 tronqué = excellent rapport qualité/prix sur des volumes massifs.

Dédoublonnage / clustering / déduplication CRM

Recommandation principale : BGE M3 self-host ou OpenAI 3-small tronqué à 384.

  • Vous embedez probablement des millions de records → coût primordial.
  • La performance absolue compte moins que la séparabilité des clusters.
  • BGE M3 multi-fonction (dense + sparse + ColBERT) particulièrement utile pour matching de noms / adresses.

Classification (intent, sentiment, topic)

Recommandation principale : embeddings + classifieur léger avec BGE M3, E5 ou OpenAI 3-small.

  • Pas besoin du top du top en retrieval : la couche classifier (logreg, XGBoost, MLP léger) compense.
  • Self-host pertinent dès que volume > 5M docs/mois.
  • Avantage : indépendance modèle (vous changez la couche classifier sans réembedder).

Code search / documentation technique

Recommandation principale : Voyage code-3 ou OpenAI text-embedding-3-large sur 3072 dim.

  • Voyage propose un modèle dédié au code, gros gain sur retrieval de fonctions.
  • À défaut, OpenAI large en pleine dimension performe bien sur du code commenté.

5. Stack pratique : index et infra

Choisir un modèle d’embedding est indissociable du choix d’index vectoriel : la dimension impacte directement coût et latence.

Vector DBForceQuand
Postgres + pgvectorSimple, transactionnel<10M vecteurs, projet single source-of-truth
QdrantPerformant, open sourcescale-up, on-prem possible
WeaviateHybrid search natifbesoin BM25 + vector
PineconeManagé, scalegros volumes, peu d’ops
MilvusOpen source haute échelle>100M vecteurs

Pour le détail de la couche infra, lisez notre fiche bases vectorielles : choix techniques 2026.

6. Méthodologie d’évaluation rapide (1 journée)

  1. Échantillon : 200-500 requêtes utilisateurs réelles + ground truth (doc attendu).
  2. Embedder chaque requête et chaque doc avec 3 candidats (typiquement Voyage 3, OpenAI 3-small, Mistral Embed).
  3. Indexer dans Qdrant local en 3 collections.
  4. Mesurer : Recall@5, Recall@10, MRR.
  5. Coupler avec un reranker pour mesurer le gain.
  6. Décider sur la combinaison coût × Recall@10 qui dépasse votre seuil métier.

Trois jours-homme pour économiser 6 mois de frustration produit : c’est probablement le meilleur ROI d’ingénierie sur un projet RAG.

Conclusion : ne déléguez pas le choix au défaut

Le bon embedding est rarement le plus vendu, et presque jamais celui que votre stagiaire a câblé en premier dans le tutoriel LangChain. C’est le résultat d’une évaluation sur votre corpus, votre langue, votre dimension de contrainte (coût, souveraineté, latence). En 2026, l’écosystème offre des options excellentes en API et open source : prenez une journée pour benchmarker, vous gagnerez 10 à 30 points de recall et la moitié de votre facture vector DB.

Notre équipe accompagne la conception et le déploiement de moteurs RAG et search dans le cadre de projets SaaS IA — du choix d’embedding à la mise en production.


Vous avez un projet IA ? → Parlons-en