4.2 Añadiendo contexto con Retrieval Augmented Generation - RAG
El Retrieval Augmented Generation (RAG) es una técnica que permite mejorar las respuestas de los modelos de lenguaje conectándolos con fuentes de información externas. En lugar de depender únicamente del conocimiento con el que fue entrenado el modelo, el sistema busca información relevante en una base de datos o en documentos propios y la utiliza para generar la respuesta.
En educación, esta técnica resulta especialmente interesante porque permite crear asistentes que trabajan con materiales del propio centro educativo, como apuntes, libros, documentos PDF, artículos científicos, guías de laboratorio o incluso ejercicios elaborados por el profesorado.
Para docentes de áreas científicas como biología, física, matemáticas o química, RAG permite construir sistemas que respondan preguntas basándose en contenidos específicos de la asignatura o incluso en el temario concreto de una materia.
Problema que resuelve RAG
Los modelos de lenguaje tienen algunas limitaciones importantes:
-
su conocimiento puede estar desactualizado
-
pueden inventar información (alucinaciones)
-
no conocen documentos privados o materiales propios
-
no pueden consultar información externa si no se les proporciona
RAG soluciona esto añadiendo una capa de recuperación de información antes de generar la respuesta.
El proceso general es el siguiente:
-
El usuario hace una pregunta
-
El sistema busca información relevante en una base de datos de documentos
-
Esa información se añade al prompt
-
El modelo genera la respuesta usando esos datos
De esta forma, el modelo responde basándose en información concreta y verificable.
Cómo funciona un sistema RAG
Un sistema RAG suele tener varias etapas.
1. Preparación de los documentos
Primero se cargan documentos que el sistema podrá consultar.
Por ejemplo:
-
apuntes de genética
-
manuales de física
-
guías de laboratorio
-
artículos científicos
-
material del aula virtual
Estos documentos se dividen en fragmentos pequeños para facilitar la búsqueda.
2. Creación de embeddings
Cada fragmento se transforma en una representación matemática llamada embedding.
Los embeddings permiten medir la similitud entre textos.
Por ejemplo, el sistema puede detectar que:
-
“segunda ley de Newton”
-
“relación entre fuerza y aceleración”
son conceptos relacionados.
Estos embeddings se almacenan en una base de datos vectorial.
3. Búsqueda semántica
Cuando el usuario hace una pregunta, el sistema:
-
genera el embedding de la pregunta
-
busca en la base vectorial los fragmentos más parecidos
-
recupera esos fragmentos
Esto se llama búsqueda semántica porque no busca palabras exactas, sino significado.
4. Generación de la respuesta
Los fragmentos recuperados se añaden al prompt y el modelo genera la respuesta usando ese contexto.
Por ejemplo:
Prompt interno simplificado:
Usa la siguiente información para responder a la pregunta del estudiante.
Fragmentos recuperados:
“En la segunda ley de Newton, la fuerza es igual a la masa multiplicada por la aceleración…”
Pregunta:
¿Cómo se calcula la fuerza de un objeto?
El modelo genera la respuesta utilizando esa información.
Ventajas de RAG en educación científica
El uso de RAG ofrece varias ventajas importantes para el profesorado.
Permite trabajar con contenidos propios
El sistema puede responder preguntas utilizando:
-
apuntes del profesor
-
documentos del aula virtual
-
prácticas de laboratorio
-
material del libro de texto
Reduce las alucinaciones
Al proporcionar información concreta, el modelo tiene menos tendencia a inventar respuestas.
Facilita el aprendizaje autónomo
Los estudiantes pueden consultar dudas sobre el temario de forma interactiva.
Por ejemplo:
¿Qué diferencia hay entre mitosis y meiosis según los apuntes de clase?
Permite crear asistentes especializados
Un sistema RAG puede convertirse en:
-
tutor de física
-
asistente de laboratorio de química
-
consultor de genética
-
ayudante para resolver problemas matemáticos.
Ejemplos en asignaturas científicas
Biología
Imaginemos un sistema RAG con documentos sobre genética.
Pregunta del alumno:
¿Qué es un alelo dominante?
El sistema recupera fragmentos de los apuntes del profesor y genera una respuesta basada en ese material.
Prompt conceptual del sistema:
Utiliza exclusivamente la información de los apuntes de genética proporcionados para responder a la pregunta del estudiante.
Física
Con documentos sobre dinámica y cinemática, un estudiante podría preguntar:
Según los apuntes del tema 3, ¿cómo se calcula la aceleración media?
El sistema buscaría el fragmento correspondiente y generaría la explicación.
Matemáticas
Un sistema RAG con ejercicios resueltos puede ayudar a los estudiantes.
Pregunta:
¿Cómo se resuelven ecuaciones de segundo grado según los ejemplos del tema?
El modelo recupera ejercicios similares y explica el procedimiento.
Química
En química, un sistema RAG puede incluir fichas de laboratorio.
Pregunta:
¿Qué precauciones hay que tener al trabajar con ácido sulfúrico en el laboratorio?
El modelo respondería utilizando las normas de seguridad del documento.
Ejemplo de prompt en un sistema RAG educativo
En muchos sistemas, el prompt que recibe el modelo es algo parecido a esto:
Eres un profesor de ciencias que responde a estudiantes de secundaria.
Utiliza únicamente la información proporcionada en el contexto para responder.
Si la información no aparece en los documentos, indica que no está disponible.
Explica los conceptos de forma clara y con ejemplos sencillos.
Contexto recuperado:
fragmentos de documentos
Pregunta del estudiante:
¿Qué es la ley de conservación de la energía?
Ejemplo de actividad educativa con RAG
Un profesor puede construir un asistente basado en los documentos del curso.
Actividad propuesta para el alumnado:
Utiliza el asistente del curso para investigar las siguientes preguntas:
¿Cuál es la función del ATP en la célula?
¿Qué diferencia hay entre velocidad media y velocidad instantánea?
¿Qué ocurre durante una reacción de neutralización?
Después los alumnos deben verificar las respuestas en los apuntes.
Este tipo de actividades fomenta el aprendizaje activo y la verificación de fuentes.
Herramientas para construir sistemas RAG
Existen varias herramientas que permiten crear sistemas RAG relativamente fácilmente.
Entre las más utilizadas están:
-
LangChain
-
LlamaIndex
-
Haystack
-
Flowise
También existen herramientas más sencillas como:
-
Ollama con bases vectoriales
-
LM Studio
-
plataformas educativas con IA integrada.
Ejemplo sencillo de arquitectura RAG
Un sistema RAG típico incluye:
-
documentos del curso
-
generación de embeddings
-
base de datos vectorial
-
motor de búsqueda semántica
-
modelo de lenguaje que genera la respuesta
Esta arquitectura permite construir asistentes muy especializados en un área concreta.
Ejemplo de prompt para crear un asistente RAG de ciencias
Un prompt de sistema podría ser:
Eres un asistente educativo especializado en ciencias para estudiantes de secundaria y bachillerato.
Debes responder utilizando únicamente la información recuperada de los documentos del curso.
Explica los conceptos de forma clara, incluye ejemplos cuando sea posible y evita introducir información que no aparezca en el contexto proporcionado.
Conclusión
El Retrieval Augmented Generation (RAG) representa una de las aplicaciones más útiles de los modelos de lenguaje en educación. Al conectar el modelo con documentos reales, se consigue un sistema capaz de responder preguntas basándose en contenidos específicos, actualizados y verificables.
Para docentes de biología, física, matemáticas y química, esta técnica permite crear asistentes educativos que trabajan con el propio temario del curso, reducen errores, mejoran la precisión de las respuestas y fomentan el aprendizaje autónomo del alumnado.
En lugar de depender únicamente del conocimiento general de un modelo de IA, RAG permite construir sistemas educativos personalizados, adaptados al contenido, al nivel y a las necesidades de cada asignatura. De este modo, los modelos de lenguaje dejan de ser simples chatbots genéricos y se convierten en herramientas didácticas especializadas capaces de apoyar de forma efectiva la enseñanza científica.

No comments to display
No comments to display