3.3 Recursos audiovisuales
Avatares parlantes
Imagen y vídeo
Música
Imagen, vídeo y música generados con IA en educación
La IA generativa ha ampliado el ecosistema educativo más allá del texto. Ahora podemos:
-
Generar imágenes originales.
-
Crear vídeos con avatares.
-
Sintetizar música.
-
Clonar voces.
-
Construir recursos multimedia completos en minutos.
Pero, como siempre, el objetivo no es sustituir creatividad, sino:
-
Comprender cómo funcionan los modelos.
-
Desarrollar criterio estético.
-
Analizar riesgos éticos (deepfakes, copyright).
-
Integrar multimodalidad en proyectos reales.
Generación de imágenes con IA
Los modelos actuales permiten crear:
-
Ilustraciones didácticas.
-
Diagramas explicativos.
-
Escenarios históricos.
-
Portadas de proyectos.
-
Visualizaciones conceptuales.
Modelos abiertos y plataformas
-
Hugging Face → Repositorio de modelos abiertos (Stable Diffusion, SDXL, Flux, etc.).
-
Stable Diffusion → Modelo abierto ampliamente usado.
-
Leonardo AI → Generación avanzada con control de estilo.
-
Playground AI → Interfaz sencilla sobre modelos abiertos.
Caso práctico en clase
Proyecto en Historia:
“Genera una imagen realista de una estación ferroviaria en 1914 durante la movilización previa a la Primera Guerra Mundial.”
Después analizar:
-
¿Es históricamente coherente?
-
¿Qué elementos anacrónicos aparecen?
-
¿La IA reproduce estereotipos?
Aquí el aprendizaje es doble: visual + crítico.
Generación de vídeo con IA
Hoy podemos generar vídeo de tres formas principales:
-
Texto a vídeo.
-
Imagen a vídeo animado.
-
Avatar que habla desde texto.
Plataformas actuales
-
Runway → Texto e imagen a vídeo.
-
Pika → Generación rápida de clips.
-
Synthesia → Avatares corporativos.
-
D-ID → Generación de avatar realista a partir de imagen + texto.
Uso educativo con D-ID
Con D-ID podemos:
-
Subir una fotografía.
-
Introducir un texto.
-
Generar un vídeo donde el avatar explica el contenido.
Ejemplo:
Crear un “profesor virtual” que explique:
-
Qué es el modelo TCP/IP.
-
O cómo funciona la responsabilidad en transporte internacional.
Actividad interesante:
El alumnado crea un avatar que explique un concepto técnico, pero debe:
-
Justificar el guion.
-
Validar el contenido.
-
Reflexionar sobre el impacto ético.
Generación de música con IA
La IA musical ha avanzado muchísimo en 2024–2026.
Permite generar:
-
Música instrumental.
-
Canciones completas con letra.
-
Bandas sonoras para vídeos educativos.
-
Música adaptada a emoción o estilo.
Plataformas actuales
-
Suno → Genera canciones completas con voz.
-
Udio → Alta calidad musical.
-
Soundraw → Música instrumental personalizable.
Modelos abiertos
En Hugging Face encontramos:
-
MusicGen (Meta).
-
Riffusion.
-
Bark (audio + voz).
-
TTS abiertos para síntesis de voz.
Esto permite trabajar:
-
IA local.
-
Experimentación técnica.
-
Comprensión del modelo generativo.
Caso práctico
Proyecto transversal:
Crear un documental sobre sostenibilidad y generar su banda sonora con IA.
Reflexión:
-
¿La música condiciona la interpretación del mensaje?
-
¿La emoción generada influye en la percepción?
Clonación de voz y síntesis avanzada
Aquí entramos en terreno delicado pero pedagógicamente potente.
Herramientas actuales
-
ElevenLabs → Clonación de voz realista.
-
Play.ht → Síntesis multilingüe.
-
Descript → Edición y clonación integrada.
Modelos abiertos
En Hugging Face:
-
Coqui TTS.
-
XTTS.
-
Bark.
-
Piper (muy usado en entornos locales).
Esto encaja muy bien con tus proyectos, Pedro, especialmente si trabajáis con:
-
Ollama.
-
Modelos locales.
-
Entornos Linux.
-
Automatizaciones con Python.
Actividad interesante:
El alumnado crea un podcast educativo con:
-
Guion generado por IA.
-
Voz sintética.
-
Música generada.
-
Imagen creada con IA.
-
Avatar explicativo con D-ID.
Proyecto 100% multimodal.
Agregadores y acceso a modelos
Para trabajar con múltiples modelos sin depender de uno solo:
-
OpenRouter → Permite acceder a múltiples modelos (open source y comerciales) desde una sola API.
-
Hugging Face → Descarga y ejecución local.
-
Replicate → API sobre modelos abiertos.
-
Together AI → Infraestructura para modelos open source.
En proyectos de FP Big Data & IA, esto permite:
-
Comparar modelos.
-
Evaluar rendimiento.
-
Medir calidad de outputs multimodales.
-
Implementar soluciones reales con Python.
Riesgos y aspectos éticos
Con imagen, vídeo y voz aparecen riesgos mayores que con texto:
-
Deepfakes.
-
Suplantación de identidad.
-
Derechos de autor.
-
Manipulación informativa.
-
Desinformación audiovisual.
Actividad crítica:
Analizar un vídeo generado por IA y debatir:
-
¿Se puede distinguir de uno real?
-
¿Qué implicaciones tendría en política?
-
¿Cómo se regula?
Proyecto multimodal final
Propuesta de proyecto completo para FP:
Crear una campaña educativa sobre un tema curricular que incluya:
-
Presentación generada con IA.
-
Vídeo con avatar (D-ID).
-
Banda sonora generada con Suno o MusicGen.
-
Imágenes generadas con Stable Diffusion.
-
Narración clonada con ElevenLabs o modelo abierto.
-
Justificación técnica del modelo usado.
-
Reflexión ética.
Evaluación:
-
Rigor técnico.
-
Integración multimodal.
-
Calidad narrativa.
-
Uso crítico de la IA.
-
Transparencia en el uso de modelos.