Skip to main content

4.3. Estrategias para trabajar con textos y evidencias sin datos identificativos

La anonimización es una estrategia básica para poder usar IA con cierto nivel de seguridad. No consiste solo en borrar el nombre, sino en eliminar o sustituir toda información que permita identificar a una persona directa o indirectamente, es decir, reducir la reidentificación por contexto, contenido o metadatos.

En educación, esto implica revisar no solo el encabezado, sino también el contenido, los metadatos y cualquier pista contextual.

En evaluación, una estrategia sencilla es separar identidad y evidencia mediante códigos, y trabajar únicamente con el texto o el producto que se va a analizar.

Flujo seguro recomendado:

  1. Recoger la evidencia.

  2. Sustituir nombres por códigos.

  3. Eliminar datos del documento.

  4. Revisar que no haya pistas evidentes de identidad.

  5. Introducir solo el fragmento necesario en la IA.

  6. Verificar la respuesta generada.

  7. Archivar la versión original en entorno institucional seguro.

Ejemplo práctico:

  • Documento original: “María Pérez, 4.º ESO B”.

  • Versión para IA: “Alumno 07, 4.º ESO”.

  • Fragmento enviado: solo el texto de la redacción o el apartado relevante.

A veces basta con cambiar un nombre por un código, pero otras veces es necesario eliminar referencias a profesores, lugares, proyectos o circunstancias familiares que podrían hacer reconocible al alumno. Cuanto más sensible sea la información, más estricta debe ser la revisión.

Herramientas y niveles de madurez

La decisión no debe hacerse por “marca”, sino por madurez de gobernanza. La siguiente tabla resume el uso más prudente en centros.

Sobre herramientas edtech específicas como MagicSchool, sí existe evidencia reciente de uso docente en generación de rúbricas, con buena percepción como borrador inicial y necesidad clara de edición humana.

NivelHerramientas tipoUso recomendableCondición de datosRequisitos contractuales y riesgos
Exploración básicaChatGPT personal, Claude consumer, Gemini AppsIdeación de actividades, borradores de rúbricas, ejemplos ficticiosSin datos reales del alumnadoEn Gemini Apps, una parte de los chats puede revisarse por humanos y utilizarse para mejorar servicios; ciertos datos revisados pueden conservarse hasta 3 años. En servicios individuales de OpenAI, los datos de versiones para individuos pueden usarse para entrenamiento. En Claude consumer, inputs/outputs pueden usarse para entrenar salvo opt-out. 
Entorno institucional gestionadoChatGPT Business/Edu/APICreación de instrumentos, revisión de textos seudonimizados, feedback asistidoDatos minimizados y seudonimizadosOpenAI indica que por defecto no entrena con datos de Business, Enterprise, Edu ni API; ofrece DPA, controles de retención y, en API, casos con zero data retention. 
Suite corporativa integradaMicrosoft 365 CopilotComentado de documentos, resúmenes y borradores en ecosistema M365Solo con permisos bien gobernadosMicrosoft indica que prompts, respuestas y datos de Graph no se usan para entrenar LLM fundacionales; funciona dentro del perímetro M365. Riesgo principal: permisos mal configurados. Además, algunos modelos Anthropic en experiencias Copilot quedan fuera del EU Data Boundary. 
Plataforma cloud avanzadaVertex AI / Google CloudPipelines con JSON, RAG institucional, despliegues controladosDatos institucionales bajo diseño técnico y jurídicoGoogle afirma que no usará datos para entrenar o afinar modelos sin permiso previo; aun así, puede haber logging para abuso y ciertos servicios de grounding almacenan prompts y salidas 30 días. 
Servicios comerciales B2BAnthropic Commercial / APICorrección asistida o feedback si el centro contrata servicio empresarialDatos minimizados y contratoAnthropic establece en términos comerciales que el cliente conserva inputs y outputs y que Anthropic no puede entrenar modelos con Customer Content; además incorpora DPA. En consumo, la política es distinta. 
Autoalojada / localGemma 4 + Ollama u otra infraestructura propiaMayor soberanía, pruebas con datos internos, prototipos avanzadosPuede admitir datos reales si la arquitectura lo justifica y el centro controla todo el entornoGemma 4 se publica bajo licencia Apache 2.0, con soporte para JSON estructurado y despliegue on-prem; Google la presenta como apta para control total de datos e infraestructura. Ollama permite ejecución local sencilla e integración vía CLI/API. Riesgos: seguridad del servidor, evaluación del modelo, coste de mantenimiento.