Skip to main content

4.2 Añadiendo contexto con Retrieval Augmented Generation - RAG

El Retrieval Augmented Generation (RAG) es una técnica que permite mejorar las respuestas de los modelos de lenguaje conectándolos con fuentes de información externas. En lugar de depender únicamente del conocimiento con el que fue entrenado el modelo, el sistema busca información relevante en una base de datos o en documentos propios y la utiliza para generar la respuesta.

En educación, esta técnica resulta especialmente interesante porque permite crear asistentes que trabajan con materiales del propio centro educativo, como apuntes, libros, documentos PDF, artículos científicos, guías de laboratorio o incluso ejercicios elaborados por el profesorado.

Para docentes de áreas científicas como biología, física, matemáticas o química, RAG permite construir sistemas que respondan preguntas basándose en contenidos específicos de la asignatura o incluso en el temario concreto de una materia.


image.png

Problema que resuelve RAG

Los modelos de lenguaje tienen algunas limitaciones importantes:

  • su conocimiento puede estar desactualizado

  • pueden inventar información (alucinaciones)

  • no conocen documentos privados o materiales propios

  • no pueden consultar información externa si no se les proporciona

RAG soluciona esto añadiendo una capa de recuperación de información antes de generar la respuesta.

El proceso general es el siguiente:

  1. El usuario hace una pregunta

  2. El sistema busca información relevante en una base de datos de documentos

  3. Esa información se añade al prompt

  4. El modelo genera la respuesta usando esos datos

De esta forma, el modelo responde basándose en información concreta y verificable.


Cómo funciona un sistema RAG

Un sistema RAG suele tener varias etapas.

1. Preparación de los documentos

Primero se cargan documentos que el sistema podrá consultar.

Por ejemplo:

  • apuntes de genética

  • manuales de física

  • guías de laboratorio

  • artículos científicos

  • material del aula virtual

Estos documentos se dividen en fragmentos pequeños para facilitar la búsqueda.


2. Creación de embeddings

Cada fragmento se transforma en una representación matemática llamada embedding.

Los embeddings permiten medir la similitud entre textos.

Por ejemplo, el sistema puede detectar que:

  • “segunda ley de Newton”

  • “relación entre fuerza y aceleración”

son conceptos relacionados.

Estos embeddings se almacenan en una base de datos vectorial.


3. Búsqueda semántica

Cuando el usuario hace una pregunta, el sistema:

  1. genera el embedding de la pregunta

  2. busca en la base vectorial los fragmentos más parecidos

  3. recupera esos fragmentos

Esto se llama búsqueda semántica porque no busca palabras exactas, sino significado.


4. Generación de la respuesta

Los fragmentos recuperados se añaden al prompt y el modelo genera la respuesta usando ese contexto.

Por ejemplo:

Prompt interno simplificado:

Usa la siguiente información para responder a la pregunta del estudiante.

Fragmentos recuperados:

“En la segunda ley de Newton, la fuerza es igual a la masa multiplicada por la aceleración…”

Pregunta:

¿Cómo se calcula la fuerza de un objeto?

El modelo genera la respuesta utilizando esa información.


Ventajas de RAG en educación científica

El uso de RAG ofrece varias ventajas importantes para el profesorado.

Permite trabajar con contenidos propios

El sistema puede responder preguntas utilizando:

  • apuntes del profesor

  • documentos del aula virtual

  • prácticas de laboratorio

  • material del libro de texto


Reduce las alucinaciones

Al proporcionar información concreta, el modelo tiene menos tendencia a inventar respuestas.


Facilita el aprendizaje autónomo

Los estudiantes pueden consultar dudas sobre el temario de forma interactiva.

Por ejemplo:

¿Qué diferencia hay entre mitosis y meiosis según los apuntes de clase?


Permite crear asistentes especializados

Un sistema RAG puede convertirse en:

  • tutor de física

  • asistente de laboratorio de química

  • consultor de genética

  • ayudante para resolver problemas matemáticos.


Ejemplos en asignaturas científicas

Biología

Imaginemos un sistema RAG con documentos sobre genética.

Pregunta del alumno:

¿Qué es un alelo dominante?

El sistema recupera fragmentos de los apuntes del profesor y genera una respuesta basada en ese material.

Prompt conceptual del sistema:

Utiliza exclusivamente la información de los apuntes de genética proporcionados para responder a la pregunta del estudiante.


Física

Con documentos sobre dinámica y cinemática, un estudiante podría preguntar:

Según los apuntes del tema 3, ¿cómo se calcula la aceleración media?

El sistema buscaría el fragmento correspondiente y generaría la explicación.


Matemáticas

Un sistema RAG con ejercicios resueltos puede ayudar a los estudiantes.

Pregunta:

¿Cómo se resuelven ecuaciones de segundo grado según los ejemplos del tema?

El modelo recupera ejercicios similares y explica el procedimiento.


Química

En química, un sistema RAG puede incluir fichas de laboratorio.

Pregunta:

¿Qué precauciones hay que tener al trabajar con ácido sulfúrico en el laboratorio?

El modelo respondería utilizando las normas de seguridad del documento.


Ejemplo de prompt en un sistema RAG educativo

En muchos sistemas, el prompt que recibe el modelo es algo parecido a esto:

Eres un profesor de ciencias que responde a estudiantes de secundaria.
Utiliza únicamente la información proporcionada en el contexto para responder.
Si la información no aparece en los documentos, indica que no está disponible.
Explica los conceptos de forma clara y con ejemplos sencillos.

Contexto recuperado:

fragmentos de documentos

Pregunta del estudiante:

¿Qué es la ley de conservación de la energía?


Ejemplo de actividad educativa con RAG

Un profesor puede construir un asistente basado en los documentos del curso.

Actividad propuesta para el alumnado:

Utiliza el asistente del curso para investigar las siguientes preguntas:

  • ¿Cuál es la función del ATP en la célula?

  • ¿Qué diferencia hay entre velocidad media y velocidad instantánea?

  • ¿Qué ocurre durante una reacción de neutralización?

Después los alumnos deben verificar las respuestas en los apuntes.

Este tipo de actividades fomenta el aprendizaje activo y la verificación de fuentes.


Herramientas para construir sistemas RAG

Existen varias herramientas que permiten crear sistemas RAG relativamente fácilmente.

Entre las más utilizadas están:

  • LangChain

  • LlamaIndex

  • Haystack

  • Flowise

También existen herramientas más sencillas como:

  • Ollama con bases vectoriales

  • LM Studio

  • plataformas educativas con IA integrada.


Ejemplo sencillo de arquitectura RAG

Un sistema RAG típico incluye:

  1. documentos del curso

  2. generación de embeddings

  3. base de datos vectorial

  4. motor de búsqueda semántica

  5. modelo de lenguaje que genera la respuesta

Esta arquitectura permite construir asistentes muy especializados en un área concreta.


Ejemplo de prompt para crear un asistente RAG de ciencias

Un prompt de sistema podría ser:

Eres un asistente educativo especializado en ciencias para estudiantes de secundaria y bachillerato.
Debes responder utilizando únicamente la información recuperada de los documentos del curso.
Explica los conceptos de forma clara, incluye ejemplos cuando sea posible y evita introducir información que no aparezca en el contexto proporcionado.


Conclusión

El Retrieval Augmented Generation (RAG) representa una de las aplicaciones más útiles de los modelos de lenguaje en educación. Al conectar el modelo con documentos reales, se consigue un sistema capaz de responder preguntas basándose en contenidos específicos, actualizados y verificables.

Para docentes de biología, física, matemáticas y química, esta técnica permite crear asistentes educativos que trabajan con el propio temario del curso, reducen errores, mejoran la precisión de las respuestas y fomentan el aprendizaje autónomo del alumnado.

En lugar de depender únicamente del conocimiento general de un modelo de IA, RAG permite construir sistemas educativos personalizados, adaptados al contenido, al nivel y a las necesidades de cada asignatura. De este modo, los modelos de lenguaje dejan de ser simples chatbots genéricos y se convierten en herramientas didácticas especializadas capaces de apoyar de forma efectiva la enseñanza científica.