Înapoi la glosarAI Foundations

RAG (Retrieval Augmented Generation)

Tehnică prin care un chatbot AI răspunde din documentele TALE (catalog, FAQ, politici), nu doar din ce a învățat modelul. Asta îl face precis și actualizabil fără reantrenare.

Pe scurt: ce face RAG

RAG înseamnă "Retrieval Augmented Generation" - generare îmbunătățită prin căutare. Un chatbot fără RAG răspunde doar din ce știe modelul (date generale până la o anumită dată). Un chatbot cu RAG primește întrebarea, caută rapid în documentele tale 3-5 pasaje relevante, și apoi modelul folosește acele pasaje pentru a răspunde precis cu surse.

Cum funcționează tehnic

  1. Documentele tale (PDF, sheets, Notion, catalog) sunt tăiate în pasaje de 200-500 cuvinte (chunking).
  2. Fiecare pasaj e transformat într-un vector numeric (embedding) prin OpenAI/Voyage.
  3. Vectorii sunt stocați într-o bază de date vectorială: Pinecone, Qdrant, Supabase pgvector.
  4. Când vine o întrebare, e transformată în vector și se caută cele mai apropiate 3-5 pasaje (cosine similarity).
  5. Pasajele găsite sunt date modelului LLM ca context, alături de întrebare.
  6. Modelul răspunde precis, citând pasajele.

De ce ai nevoie de RAG

Modelul tipic AI nu știe: prețurile tale, politica de retur, programul, instrumentarul medical disponibil, datele clienților, contractele. RAG îi dă acces la toate astea fără să facă fine-tuning (care e scump și lent). Update-urile sunt instant: schimbi un PDF, adaugi un produs, RAG-ul îl vede imediat.

Cazuri reale

  • Chatbot suport care răspunde din manualul produsului (200 pagini)
  • Asistent legal care citează din 50 contracte
  • Chatbot e-commerce care recomandă produse din catalog
  • Asistent intern care răspunde din politicile firmei (HR, IT, finance)

Costuri tipice

Setup RAG: 800-2.500 EUR (depinde de volumul de documente). Cost per conversație: 0,02-0,08 EUR. Stocare vectori: 0-200 EUR/lună (Supabase pgvector e free pentru volume mici). Update documentelor e gratis după implementare.

Întrebări frecvente

Care e diferența între RAG și fine-tuning?

+
Fine-tuning antrenează modelul pe datele tale (scump, lent, nu se poate update fără reantrenare). RAG dă modelului acces la documente live (rapid, ieftin, update instant). Pentru 95% din cazuri RAG e suficient.

Ce bază vectorială să folosesc?

+
Pinecone (cloud, scump, ușor) pentru producție serioasă. Qdrant (self-hosted, free) pentru control. Supabase pgvector (built-in Postgres) pentru cele mai multe cazuri SMB.

Câte documente pot avea într-un RAG?

+
Practic nelimitat. Cazuri reale: 10.000 - 1.000.000 pasaje per index. Costul cheltuielilor scalează liniar cu volumul.

Pot citi documente confidențiale prin RAG?

+
Da, dar atent cu hosting și GDPR. Pentru date sensibile (medical, legal) recomandăm Supabase EU sau self-hosted Qdrant.

Termeni înrudiți

Vrei să implementezi în afacerea ta?

Programează o discuție gratuită