3.3 Recursos audiovisuales

Avatares parlantes

Imagen y vídeo

Música

Imagen, vídeo y música generados con IA en educación

La IA generativa ha ampliado el ecosistema educativo más allá del texto. Ahora podemos:

Generar imágenes originales.

Crear vídeos con avatares.

Sintetizar música.

Clonar voces.

Construir recursos multimedia completos en minutos.

Pero, como siempre, el objetivo no es sustituir creatividad, sino:

Comprender cómo funcionan los modelos.

Desarrollar criterio estético.

Analizar riesgos éticos (deepfakes, copyright).

Integrar multimodalidad en proyectos reales.

Generación de imágenes con IA

Los modelos actuales permiten crear:

Ilustraciones didácticas.

Diagramas explicativos.

Escenarios históricos.

Portadas de proyectos.

Visualizaciones conceptuales.

Modelos abiertos y plataformas

Hugging Face → Repositorio de modelos abiertos (Stable Diffusion, SDXL, Flux, etc.).

Stable Diffusion → Modelo abierto ampliamente usado.

Leonardo AI → Generación avanzada con control de estilo.

Playground AI → Interfaz sencilla sobre modelos abiertos.

Caso práctico en clase

Proyecto en Historia:

“Genera una imagen realista de una estación ferroviaria en 1914 durante la movilización previa a la Primera Guerra Mundial.”

Después analizar:

¿Es históricamente coherente?

¿Qué elementos anacrónicos aparecen?

¿La IA reproduce estereotipos?

Aquí el aprendizaje es doble: visual + crítico.

Generación de vídeo con IA

Hoy podemos generar vídeo de tres formas principales:

Texto a vídeo.

Imagen a vídeo animado.

Avatar que habla desde texto.

Plataformas actuales

Runway → Texto e imagen a vídeo.

Pika → Generación rápida de clips.

Synthesia → Avatares corporativos.

D-ID → Generación de avatar realista a partir de imagen + texto.

Uso educativo con D-ID

Con D-ID podemos:

Subir una fotografía.

Introducir un texto.

Generar un vídeo donde el avatar explica el contenido.

Ejemplo:

Crear un “profesor virtual” que explique:

Qué es el modelo TCP/IP.

O cómo funciona la responsabilidad en transporte internacional.

Actividad interesante:

El alumnado crea un avatar que explique un concepto técnico, pero debe:

Justificar el guion.

Validar el contenido.

Reflexionar sobre el impacto ético.

Generación de música con IA

La IA musical ha avanzado muchísimo en 2024–2026.

Permite generar:

Música instrumental.

Canciones completas con letra.

Bandas sonoras para vídeos educativos.

Música adaptada a emoción o estilo.

Plataformas actuales

Suno → Genera canciones completas con voz.

Udio → Alta calidad musical.

Soundraw → Música instrumental personalizable.

Modelos abiertos

En Hugging Face encontramos:

MusicGen (Meta).

Riffusion.

Bark (audio + voz).

TTS abiertos para síntesis de voz.

Esto permite trabajar:

IA local.

Experimentación técnica.

Comprensión del modelo generativo.

Caso práctico

Proyecto transversal:

Crear un documental sobre sostenibilidad y generar su banda sonora con IA.

Reflexión:

¿La música condiciona la interpretación del mensaje?

¿La emoción generada influye en la percepción?

Clonación de voz y síntesis avanzada

Aquí entramos en terreno delicado pero pedagógicamente potente.

Herramientas actuales

ElevenLabs → Clonación de voz realista.

Play.ht → Síntesis multilingüe.

Descript → Edición y clonación integrada.

Modelos abiertos

En Hugging Face:

Coqui TTS.

XTTS.

Bark.

Piper (muy usado en entornos locales).

Esto encaja muy bien con tus proyectos, Pedro, especialmente si trabajáis con:

Ollama.

Modelos locales.

Entornos Linux.

Automatizaciones con Python.

Actividad interesante:

El alumnado crea un podcast educativo con:

Guion generado por IA.

Voz sintética.

Música generada.

Imagen creada con IA.

Avatar explicativo con D-ID.

Proyecto 100% multimodal.

Agregadores y acceso a modelos

Para trabajar con múltiples modelos sin depender de uno solo:

OpenRouter → Permite acceder a múltiples modelos (open source y comerciales) desde una sola API.

Hugging Face → Descarga y ejecución local.

Replicate → API sobre modelos abiertos.

Together AI → Infraestructura para modelos open source.

En proyectos de FP Big Data & IA, esto permite:

Comparar modelos.

Evaluar rendimiento.

Medir calidad de outputs multimodales.

Implementar soluciones reales con Python.

Riesgos y aspectos éticos

Con imagen, vídeo y voz aparecen riesgos mayores que con texto:

Deepfakes.

Suplantación de identidad.

Derechos de autor.

Manipulación informativa.

Desinformación audiovisual.

Actividad crítica:

Analizar un vídeo generado por IA y debatir:

¿Se puede distinguir de uno real?

¿Qué implicaciones tendría en política?

¿Cómo se regula?

Proyecto multimodal final

Propuesta de proyecto completo para FP:

Crear una campaña educativa sobre un tema curricular que incluya:

Presentación generada con IA.

Vídeo con avatar (D-ID).

Banda sonora generada con Suno o MusicGen.

Imágenes generadas con Stable Diffusion.

Narración clonada con ElevenLabs o modelo abierto.

Justificación técnica del modelo usado.

Reflexión ética.

Evaluación:

Rigor técnico.

Integración multimodal.

Calidad narrativa.

Uso crítico de la IA.

Transparencia en el uso de modelos.