Skip to main content

3.3 Recursos audiovisuales

Avatares parlantes

Imagen y vídeo

Música

Imagen, vídeo y música generados con IA en educación

La IA generativa ha ampliado el ecosistema educativo más allá del texto. Ahora podemos:

  • Generar imágenes originales.

  • Crear vídeos con avatares.

  • Sintetizar música.

  • Clonar voces.

  • Construir recursos multimedia completos en minutos.

Pero, como siempre, el objetivo no es sustituir creatividad, sino:

  • Comprender cómo funcionan los modelos.

  • Desarrollar criterio estético.

  • Analizar riesgos éticos (deepfakes, copyright).

  • Integrar multimodalidad en proyectos reales.


Generación de imágenes con IA

Los modelos actuales permiten crear:

  • Ilustraciones didácticas.

  • Diagramas explicativos.

  • Escenarios históricos.

  • Portadas de proyectos.

  • Visualizaciones conceptuales.

Modelos abiertos y plataformas

  • Hugging Face → Repositorio de modelos abiertos (Stable Diffusion, SDXL, Flux, etc.).

  • Stable Diffusion → Modelo abierto ampliamente usado.

  • Leonardo AI → Generación avanzada con control de estilo.

  • Playground AI → Interfaz sencilla sobre modelos abiertos.

Caso práctico en clase

Proyecto en Historia:

“Genera una imagen realista de una estación ferroviaria en 1914 durante la movilización previa a la Primera Guerra Mundial.”

Después analizar:

  • ¿Es históricamente coherente?

  • ¿Qué elementos anacrónicos aparecen?

  • ¿La IA reproduce estereotipos?

Aquí el aprendizaje es doble: visual + crítico.


Generación de vídeo con IA

Hoy podemos generar vídeo de tres formas principales:

  1. Texto a vídeo.

  2. Imagen a vídeo animado.

  3. Avatar que habla desde texto.

Plataformas actuales

  • Runway → Texto e imagen a vídeo.

  • Pika → Generación rápida de clips.

  • Synthesia → Avatares corporativos.

  • D-ID → Generación de avatar realista a partir de imagen + texto.

Uso educativo con D-ID

Con D-ID podemos:

  • Subir una fotografía.

  • Introducir un texto.

  • Generar un vídeo donde el avatar explica el contenido.

Ejemplo:

Crear un “profesor virtual” que explique:

  • Qué es el modelo TCP/IP.

  • O cómo funciona la responsabilidad en transporte internacional.

Actividad interesante:

El alumnado crea un avatar que explique un concepto técnico, pero debe:

  • Justificar el guion.

  • Validar el contenido.

  • Reflexionar sobre el impacto ético.


Generación de música con IA

La IA musical ha avanzado muchísimo en 2024–2026.

Permite generar:

  • Música instrumental.

  • Canciones completas con letra.

  • Bandas sonoras para vídeos educativos.

  • Música adaptada a emoción o estilo.

Plataformas actuales

  • Suno → Genera canciones completas con voz.

  • Udio → Alta calidad musical.

  • Soundraw → Música instrumental personalizable.

Modelos abiertos

En Hugging Face encontramos:

  • MusicGen (Meta).

  • Riffusion.

  • Bark (audio + voz).

  • TTS abiertos para síntesis de voz.

Esto permite trabajar:

  • IA local.

  • Experimentación técnica.

  • Comprensión del modelo generativo.

Caso práctico

Proyecto transversal:

Crear un documental sobre sostenibilidad y generar su banda sonora con IA.

Reflexión:

  • ¿La música condiciona la interpretación del mensaje?

  • ¿La emoción generada influye en la percepción?


Clonación de voz y síntesis avanzada

Aquí entramos en terreno delicado pero pedagógicamente potente.

Herramientas actuales

  • ElevenLabs → Clonación de voz realista.

  • Play.ht → Síntesis multilingüe.

  • Descript → Edición y clonación integrada.

Modelos abiertos

En Hugging Face:

  • Coqui TTS.

  • XTTS.

  • Bark.

  • Piper (muy usado en entornos locales).

Esto encaja muy bien con tus proyectos, Pedro, especialmente si trabajáis con:

  • Ollama.

  • Modelos locales.

  • Entornos Linux.

  • Automatizaciones con Python.

Actividad interesante:

El alumnado crea un podcast educativo con:

  • Guion generado por IA.

  • Voz sintética.

  • Música generada.

  • Imagen creada con IA.

  • Avatar explicativo con D-ID.

Proyecto 100% multimodal.


Agregadores y acceso a modelos 

Para trabajar con múltiples modelos sin depender de uno solo:

  • OpenRouter → Permite acceder a múltiples modelos (open source y comerciales) desde una sola API.

  • Hugging Face → Descarga y ejecución local.

  • Replicate → API sobre modelos abiertos.

  • Together AI → Infraestructura para modelos open source.

En proyectos de FP Big Data & IA, esto permite:

  • Comparar modelos.

  • Evaluar rendimiento.

  • Medir calidad de outputs multimodales.

  • Implementar soluciones reales con Python.


Riesgos y aspectos éticos

Con imagen, vídeo y voz aparecen riesgos mayores que con texto:

  • Deepfakes.

  • Suplantación de identidad.

  • Derechos de autor.

  • Manipulación informativa.

  • Desinformación audiovisual.

Actividad crítica:

Analizar un vídeo generado por IA y debatir:

  • ¿Se puede distinguir de uno real?

  • ¿Qué implicaciones tendría en política?

  • ¿Cómo se regula?


Proyecto multimodal final

Propuesta de proyecto completo para FP:

Crear una campaña educativa sobre un tema curricular que incluya:

  • Presentación generada con IA.

  • Vídeo con avatar (D-ID).

  • Banda sonora generada con Suno o MusicGen.

  • Imágenes generadas con Stable Diffusion.

  • Narración clonada con ElevenLabs o modelo abierto.

  • Justificación técnica del modelo usado.

  • Reflexión ética.

Evaluación:

  • Rigor técnico.

  • Integración multimodal.

  • Calidad narrativa.

  • Uso crítico de la IA.

  • Transparencia en el uso de modelos.