4.3. Estrategias para trabajar con textos y evidencias sin datos identificativos
La anonimización es una estrategia básica para poder usar IA con cierto nivel de seguridad. No consiste solo en borrar el nombre, sino en eliminar o sustituir toda información que permita identificar a una persona directa o indirectamente, es decir, reducir la reidentificación por contexto, contenido o metadatos.
En educación, esto implica revisar no solo el encabezado, sino también el contenido, los metadatos y cualquier pista contextual.
En evaluación, una estrategia sencilla es separar identidad y evidencia mediante códigos, y trabajar únicamente con el texto o el producto que se va a analizar.
Flujo seguro recomendado:
-
Recoger la evidencia.
-
Sustituir nombres por códigos.
-
Eliminar datos del documento.
-
Revisar que no haya pistas evidentes de identidad.
-
Introducir solo el fragmento necesario en la IA.
-
Verificar la respuesta generada.
-
Archivar la versión original en entorno institucional seguro.
Ejemplo práctico:
Documento original: “María Pérez, 4.º ESO B”.
Versión para IA: “Alumno 07, 4.º ESO”.
Fragmento enviado: solo el texto de la redacción o el apartado relevante.
A veces basta con cambiar un nombre por un código, pero otras veces es necesario eliminar referencias a profesores, lugares, proyectos o circunstancias familiares que podrían hacer reconocible al alumno. Cuanto más sensible sea la información, más estricta debe ser la revisión.
Herramientas y niveles de madurez
La decisión no debe hacerse por “marca”, sino por madurez de gobernanza. La siguiente tabla resume el uso más prudente en centros.
Sobre herramientas edtech específicas como MagicSchool, sí existe evidencia reciente de uso docente en generación de rúbricas, con buena percepción como borrador inicial y necesidad clara de edición humana.
| Nivel | Herramientas tipo | Uso recomendable | Condición de datos | Requisitos contractuales y riesgos |
| Exploración básica | ChatGPT personal, Claude consumer, Gemini Apps | Ideación de actividades, borradores de rúbricas, ejemplos ficticios | Sin datos reales del alumnado | En Gemini Apps, una parte de los chats puede revisarse por humanos y utilizarse para mejorar servicios; ciertos datos revisados pueden conservarse hasta 3 años. En servicios individuales de OpenAI, los datos de versiones para individuos pueden usarse para entrenamiento. En Claude consumer, inputs/outputs pueden usarse para entrenar salvo opt-out. |
| Entorno institucional gestionado | ChatGPT Business/Edu/API | Creación de instrumentos, revisión de textos seudonimizados, feedback asistido | Datos minimizados y seudonimizados | OpenAI indica que por defecto no entrena con datos de Business, Enterprise, Edu ni API; ofrece DPA, controles de retención y, en API, casos con zero data retention. |
| Suite corporativa integrada | Microsoft 365 Copilot | Comentado de documentos, resúmenes y borradores en ecosistema M365 | Solo con permisos bien gobernados | Microsoft indica que prompts, respuestas y datos de Graph no se usan para entrenar LLM fundacionales; funciona dentro del perímetro M365. Riesgo principal: permisos mal configurados. Además, algunos modelos Anthropic en experiencias Copilot quedan fuera del EU Data Boundary. |
| Plataforma cloud avanzada | Vertex AI / Google Cloud | Pipelines con JSON, RAG institucional, despliegues controlados | Datos institucionales bajo diseño técnico y jurídico | Google afirma que no usará datos para entrenar o afinar modelos sin permiso previo; aun así, puede haber logging para abuso y ciertos servicios de grounding almacenan prompts y salidas 30 días. |
| Servicios comerciales B2B | Anthropic Commercial / API | Corrección asistida o feedback si el centro contrata servicio empresarial | Datos minimizados y contrato | Anthropic establece en términos comerciales que el cliente conserva inputs y outputs y que Anthropic no puede entrenar modelos con Customer Content; además incorpora DPA. En consumo, la política es distinta. |
| Autoalojada / local | Gemma 4 + Ollama u otra infraestructura propia | Mayor soberanía, pruebas con datos internos, prototipos avanzados | Puede admitir datos reales si la arquitectura lo justifica y el centro controla todo el entorno | Gemma 4 se publica bajo licencia Apache 2.0, con soporte para JSON estructurado y despliegue on-prem; Google la presenta como apta para control total de datos e infraestructura. Ollama permite ejecución local sencilla e integración vía CLI/API. Riesgos: seguridad del servidor, evaluación del modelo, coste de mantenimiento. |
Sobre herramientas edtech específicas como MagicSchool, sí existe evidencia reciente de uso docente en generación de rúbricas, con buena percepción como borrador inicial y necesidad clara de edición humana.
¿Cómo decidir qué herramienta usar?
