What's the difference between RAG and fine-tuning?

Fine-tuning trains the model on your data (expensive, slow, can't update without retraining). RAG gives the model access to live documents (fast, cheap, instant updates). For 95% of cases RAG is enough.

Which vector database should I use?

Pinecone (cloud, pricey, easy) for serious production. Qdrant (self-hosted, free) for control. Supabase pgvector (built into Postgres) for most SMB cases.

How many documents can I have in a RAG?

Practically unlimited. Real cases: 10,000 - 1,000,000 passages per index. Cost scales linearly with volume.

Can I use RAG for confidential documents?

Yes, but be careful with hosting and GDPR. For sensitive data (medical, legal) we recommend EU-hosted Supabase or self-hosted Qdrant.

RAG (Retrieval Augmented Generation): Definition + Use Cases | DevoneX AI Glossary

RAG (Retrieval Augmented Generation)

Tehnică prin care un chatbot AI răspunde din documentele TALE (catalog, FAQ, politici), nu doar din ce a învățat modelul. Asta îl face precis și actualizabil fără reantrenare.

Pe scurt: ce face RAG

RAG înseamnă "Retrieval Augmented Generation" - generare îmbunătățită prin căutare. Un chatbot fără RAG răspunde doar din ce știe modelul (date generale până la o anumită dată). Un chatbot cu RAG primește întrebarea, caută rapid în documentele tale 3-5 pasaje relevante, și apoi modelul folosește acele pasaje pentru a răspunde precis cu surse.

Cum funcționează tehnic

Documentele tale (PDF, sheets, Notion, catalog) sunt tăiate în pasaje de 200-500 cuvinte (chunking).
Fiecare pasaj e transformat într-un vector numeric (embedding) prin OpenAI/Voyage.
Vectorii sunt stocați într-o bază de date vectorială: Pinecone, Qdrant, Supabase pgvector.
Când vine o întrebare, e transformată în vector și se caută cele mai apropiate 3-5 pasaje (cosine similarity).
Pasajele găsite sunt date modelului LLM ca context, alături de întrebare.
Modelul răspunde precis, citând pasajele.

De ce ai nevoie de RAG

Modelul tipic AI nu știe: prețurile tale, politica de retur, programul, instrumentarul medical disponibil, datele clienților, contractele. RAG îi dă acces la toate astea fără să facă fine-tuning (care e scump și lent). Update-urile sunt instant: schimbi un PDF, adaugi un produs, RAG-ul îl vede imediat.

Cazuri reale

Chatbot suport care răspunde din manualul produsului (200 pagini)
Asistent legal care citează din 50 contracte
Chatbot e-commerce care recomandă produse din catalog
Asistent intern care răspunde din politicile firmei (HR, IT, finance)

Costuri tipice

Setup RAG: 800-2.500 EUR (depinde de volumul de documente). Cost per conversație: 0,02-0,08 EUR. Stocare vectori: 0-200 EUR/lună (Supabase pgvector e free pentru volume mici). Update documentelor e gratis după implementare.

Întrebări frecvente

Care e diferența între RAG și fine-tuning?

Fine-tuning antrenează modelul pe datele tale (scump, lent, nu se poate update fără reantrenare). RAG dă modelului acces la documente live (rapid, ieftin, update instant). Pentru 95% din cazuri RAG e suficient.

Ce bază vectorială să folosesc?

Pinecone (cloud, scump, ușor) pentru producție serioasă. Qdrant (self-hosted, free) pentru control. Supabase pgvector (built-in Postgres) pentru cele mai multe cazuri SMB.

Câte documente pot avea într-un RAG?

Practic nelimitat. Cazuri reale: 10.000 - 1.000.000 pasaje per index. Costul cheltuielilor scalează liniar cu volumul.

Pot citi documente confidențiale prin RAG?

Da, dar atent cu hosting și GDPR. Pentru date sensibile (medical, legal) recomandăm Supabase EU sau self-hosted Qdrant.