3.1 Introducción y modelos fundacionales

Introducción  

 Una vez que tenemos diseñada nuestra Situación de Aprendizaje, quizá necesitemos elaborar diferentes materiales o recursos didácticos a emplear durante el desarrollo de la misma. Para ello veremos qué utilidades nos pueden ofrecer algunos sistemas de inteligencia artificial generativa. 

 Recuerda que el contenido que le proporciones a la IA ha de ser de autoría propia o disponer de la licencia para poder utilizar ese contenido. 

 Te recomendamos que para probar herramientas que requieran registro, te abras una nueva cuenta de correo electrónico específica para las herramientas o aplicaciones,  así evitarás spam innecesario en tu cuenta principal. También puedes probar con cuentas de correo temporal como tempmail .  

 Es posible que las funciones, características o precio de las herramientas que se presentan en el siguiente capítulo cambien en un futuro. Revisión en marzo de 2026. 

 Modelos fundacionales: base de los recursos de texto, audio, imagen y vídeo 

 Cuando hablamos de generación automática de texto, transcripción de audio, creación de imágenes o análisis de vídeo con IA, en realidad estamos hablando de una misma idea tecnológica de fondo: los modelos fundacionales . 

 Un modelo fundacional es un modelo de inteligencia artificial entrenado con enormes cantidades de datos y diseñado para servir como base común sobre la que se construyen múltiples aplicaciones. No nace para hacer una única tarea concreta, sino para adaptarse a muchas: redactar textos, resumir documentos, traducir idiomas, describir imágenes, generar código, sintetizar voz o analizar contenido multimedia. 

 Empresas como OpenAI , Google DeepMind , Anthropic , Meta o Mistral AI han desarrollado modelos fundacionales que actúan como motores generales de inteligencia artificial. A partir de ellos se construyen asistentes conversacionales, generadores de presentaciones, sistemas de análisis documental, herramientas de edición multimedia o plataformas educativas. 

 La característica principal de estos modelos es su carácter generalista . A diferencia de los modelos tradicionales, que se entrenaban para una única tarea (por ejemplo, detectar spam o clasificar imágenes médicas), los modelos fundacionales se entrenan primero de forma masiva y después se adaptan mediante prompting, ajuste fino (fine-tuning) o integración con bases de datos externas (RAG). Esto permite reutilizar el mismo modelo para múltiples contextos. 

 En el ámbito de los recursos educativos y profesionales, esta base común explica por qué hoy podemos trabajar con: 

 

 

 Generación y transformación de textos (resúmenes, esquemas, traducciones, rúbricas). 

 

 

 Transcripción automática y síntesis de voz. 

 

 

 Generación y análisis de imágenes. 

 

 

 Creación o comprensión de vídeo. 

 

 

 Sistemas multimodales que combinan texto, imagen y audio en una misma interacción. 

 

 

 Muchos de estos modelos están construidos sobre arquitecturas tipo Transformer y pueden operar en una o varias modalidades. Algunos son exclusivamente de texto (LLMs), otros están especializados en visión o audio, y los más recientes son multimodales, capaces de integrar diferentes tipos de información en un único sistema. 

 Además, los modelos fundacionales pueden ser: 

 

 

 Propietarios , accesibles mediante API. 

 

 

 Abiertos , con pesos descargables y ejecutables en local (algo especialmente relevante en entornos educativos donde se busca privacidad, control y experimentación técnica). 

 

 

 En definitiva, los modelos fundacionales son el “motor” que hace posible todos los recursos de generación y análisis de texto, audio, imagen y vídeo que veremos en este capítulo. Entender su naturaleza, sus límites y sus posibilidades es clave para utilizar estas herramientas de manera crítica, técnica y responsable. 

 

 

 

 

 

 

 

 

 

 

 

 

 

 Modalidad / Uso 

 Modelo / Ejemplo 

 Descripción breve 

 Aplicación típica 

 

 

 

 

 Texto / Lenguaje 

 GPT (OpenAI) 

 Modelo de lenguaje preentrenado capaz de generación y comprensión de texto. 

 Bots conversacionales, resúmenes y traducción de textos. 

 

 

   

 Claude (Anthropic) 

 LLM orientado a respuestas coherentes y seguras. 

 Asistencia en escritura y análisis de texto. 

 

 

 Imagen 

 Stable Diffusion 

 Modelo generador de imágenes a partir de descripciones en texto. 

 Creación de ilustraciones y diseños visuales. 

 

 

   

 DALL-E 

 Generación de imágenes creativas desde instrucciones textuales. 

 Arte digital y gráficos personalizados. 

 

 

 Audio / Voz (Reconocimiento – Speech-to-Text) 

 Whisper (OpenAI) 

 Modelo para transcripción automática de voz a texto en múltiples idiomas. 

 Transcripción de grabaciones y clases. 

 

 

   

 Modelos de reconocimiento y traducción de voz (varios) 

 Modelos entrenados para convertir audio hablado en texto y/o traducir voz. 

 Subtítulos automáticos y traducción de audio. 

 

 

 Audio / Voz (Síntesis – Text-to-Speech) 

 Modelos TTS comerciales 

 Modelos que generan voz natural desde texto. 

 Narración de contenidos y asistentes de voz. 

 

 

 Vídeo (Generación y Multimodal audiovisual) 

 Sora (OpenAI) 

 Modelo de IA que genera vídeos realistas a partir de descripciones textuales, incluyendo audio. 

 Producción de clips de vídeo con sonido integrado. 

 

 

   

 Veo 3 (Google DeepMind) 

 Generador de vídeos con audio sincronizado a partir de texto y/o imagen. 

 Creación de contenidos audiovisuales generados por IA. 

 

 

   

 Movie Gen (Meta) 

 Modelo que produce vídeos completos con sonido desde textos descriptivos. 

 Desarrollo de vídeos personalizados con audio. 

 

 

 Multimodal (Texto + Imagen + Audio + Vídeo) 

 Gemini (Google) 

 Modelo multimodal que procesa y genera contenido en diferentes formatos simultáneamente. 

 Asistentes que combinan texto, imagen, voz y vídeo. 

 

 

   

 Modelos multimodales unificados (investigación) 

 Investigaciones académicas en modelos que integran texto, imagen, audio y vídeo. 

 Proyectos de IA generalistas para múltiples tareas. 

 

 

 

 

 

 

 

 

 

 

 

 Los modelos fundacionales son redes neuronales entrenadas con datos masivos y diseñadas para poder adaptarse a numerosas tareas tanto de generación como de comprensión en diferentes dominios de entrada y salida (texto, imagen, audio y vídeo). Su carácter generalista los convierte en la base sobre la que se construyen aplicaciones especializadas en IA.