Le pipeline standard
Ingestion → chunking → embeddings → vector store → retrieval → reranking → génération. Aucun de ces étages n'est optionnel.
Là où ça pèche en pratique
Le chunking. 90% des projets RAG décevants viennent d'un chunking trop naïf qui casse le contexte.
Notre stack 2026
PostgreSQL + pgvector pour le stockage, BGE-M3 ou OpenAI text-embedding-3 pour les embeddings, Cohere Rerank pour le reranking, Claude ou GPT pour la génération.
Ce qu'on attend du client
Une vérité de base sur la qualité des documents. Si vos docs sont contradictoires, le RAG le sera aussi.