RAG resolve o problema de alucinação e desatualização dos LLMs ao buscar informações relevantes em bases de dados externas antes de gerar respostas. O processo envolve: (1) converter documentos em embeddings vetoriais, (2) armazenar em banco de dados vetorial, (3) buscar trechos relevantes ao receber uma pergunta, (4) fornecer esses trechos como contexto ao LLM. Isso permite que o modelo acesse informações proprietárias e atualizadas sem retreinamento.