RAG (Retrieval Augmented Generation)
Tehnică prin care un chatbot AI răspunde din documentele TALE (catalog, FAQ, politici), nu doar din ce a învățat modelul. Asta îl face precis și actualizabil fără reantrenare.
Pe scurt: ce face RAG
RAG înseamnă "Retrieval Augmented Generation" - generare îmbunătățită prin căutare. Un chatbot fără RAG răspunde doar din ce știe modelul (date generale până la o anumită dată). Un chatbot cu RAG primește întrebarea, caută rapid în documentele tale 3-5 pasaje relevante, și apoi modelul folosește acele pasaje pentru a răspunde precis cu surse.
Cum funcționează tehnic
- Documentele tale (PDF, sheets, Notion, catalog) sunt tăiate în pasaje de 200-500 cuvinte (chunking).
- Fiecare pasaj e transformat într-un vector numeric (embedding) prin OpenAI/Voyage.
- Vectorii sunt stocați într-o bază de date vectorială: Pinecone, Qdrant, Supabase pgvector.
- Când vine o întrebare, e transformată în vector și se caută cele mai apropiate 3-5 pasaje (cosine similarity).
- Pasajele găsite sunt date modelului LLM ca context, alături de întrebare.
- Modelul răspunde precis, citând pasajele.
De ce ai nevoie de RAG
Modelul tipic AI nu știe: prețurile tale, politica de retur, programul, instrumentarul medical disponibil, datele clienților, contractele. RAG îi dă acces la toate astea fără să facă fine-tuning (care e scump și lent). Update-urile sunt instant: schimbi un PDF, adaugi un produs, RAG-ul îl vede imediat.
Cazuri reale
- Chatbot suport care răspunde din manualul produsului (200 pagini)
- Asistent legal care citează din 50 contracte
- Chatbot e-commerce care recomandă produse din catalog
- Asistent intern care răspunde din politicile firmei (HR, IT, finance)
Costuri tipice
Setup RAG: 800-2.500 EUR (depinde de volumul de documente). Cost per conversație: 0,02-0,08 EUR. Stocare vectori: 0-200 EUR/lună (Supabase pgvector e free pentru volume mici). Update documentelor e gratis după implementare.
Întrebări frecvente
Care e diferența între RAG și fine-tuning?
+
Ce bază vectorială să folosesc?
+
Câte documente pot avea într-un RAG?
+
Pot citi documente confidențiale prin RAG?
+
Termeni înrudiți
LLM (Large Language Model)
Model de inteligență artificială antrenat pe miliarde de cuvinte care înțelege și generează limbaj natural. Exemple în 2026: GPT-5, Claude 4.7, Gemini 2.5 Pro.
Vector Database (bază de date vectorială)
Bază de date specializată în stocarea și căutarea vectorilor numerici (embeddings) - esențială pentru RAG, recomandări AI, căutare semantică.
Chatbot AI
Software de mesagerie care conversează în text cu clienții pe WhatsApp, Instagram, Messenger sau site-ul tău, folosind un model AI antrenat pe documentele tale.