# 3.1 Introducción y modelos fundacionales

## Introducción 

Una vez que tenemos diseñada nuestra Situación de Aprendizaje, quizá necesitemos elaborar diferentes materiales o recursos didácticos a emplear durante el desarrollo de la misma. Para ello veremos qué utilidades nos pueden ofrecer algunos sistemas de inteligencia artificial generativa.

<p class="callout warning">Recuerda que el **contenido que le proporciones a la IA** ha de ser de **autoría propia o** disponer de la **licencia** para poder utilizar ese contenido.</p>

<p class="callout success">Te recomendamos que para probar herramientas que requieran registro, te abras una nueva **cuenta de correo electrónico específica** para las herramientas o aplicaciones, **así evitarás spam innecesario** en tu cuenta principal. También puedes probar con cuentas de correo temporal como [tempmail](https://temp-mail.org/es/). </p>

<p class="callout danger">Es posible que las funciones, características o precio de las herramientas que se presentan en el siguiente capítulo cambien en un futuro. Revisión en marzo de 2026.</p>

## Modelos fundacionales: base de los recursos de texto, audio, imagen y vídeo

Cuando hablamos de generación automática de texto, transcripción de audio, creación de imágenes o análisis de vídeo con IA, en realidad estamos hablando de una misma idea tecnológica de fondo: los **modelos fundacionales**.

Un modelo fundacional es un modelo de inteligencia artificial entrenado con enormes cantidades de datos y diseñado para servir como base común sobre la que se construyen múltiples aplicaciones. No nace para hacer una única tarea concreta, sino para adaptarse a muchas: redactar textos, resumir documentos, traducir idiomas, describir imágenes, generar código, sintetizar voz o analizar contenido multimedia.

Empresas como <span class="hover:entity-accent entity-underline inline cursor-pointer align-baseline"><span class="whitespace-normal">OpenAI</span></span>, <span class="hover:entity-accent entity-underline inline cursor-pointer align-baseline"><span class="whitespace-normal">Google DeepMind</span></span>, <span class="hover:entity-accent entity-underline inline cursor-pointer align-baseline"><span class="whitespace-normal">Anthropic</span></span>, <span class="hover:entity-accent entity-underline inline cursor-pointer align-baseline"><span class="whitespace-normal">Meta</span></span> o <span class="hover:entity-accent entity-underline inline cursor-pointer align-baseline"><span class="whitespace-normal">Mistral AI</span></span> han desarrollado modelos fundacionales que actúan como motores generales de inteligencia artificial. A partir de ellos se construyen asistentes conversacionales, generadores de presentaciones, sistemas de análisis documental, herramientas de edición multimedia o plataformas educativas.

La característica principal de estos modelos es su carácter **generalista**. A diferencia de los modelos tradicionales, que se entrenaban para una única tarea (por ejemplo, detectar spam o clasificar imágenes médicas), los modelos fundacionales se entrenan primero de forma masiva y después se adaptan mediante prompting, ajuste fino (fine-tuning) o integración con bases de datos externas (RAG). Esto permite reutilizar el mismo modelo para múltiples contextos.

En el ámbito de los recursos educativos y profesionales, esta base común explica por qué hoy podemos trabajar con:

- Generación y transformación de textos (resúmenes, esquemas, traducciones, rúbricas).
- Transcripción automática y síntesis de voz.
- Generación y análisis de imágenes.
- Creación o comprensión de vídeo.
- Sistemas multimodales que combinan texto, imagen y audio en una misma interacción.

Muchos de estos modelos están construidos sobre arquitecturas tipo Transformer y pueden operar en una o varias modalidades. Algunos son exclusivamente de texto (LLMs), otros están especializados en visión o audio, y los más recientes son multimodales, capaces de integrar diferentes tipos de información en un único sistema.

Además, los modelos fundacionales pueden ser:

- **Propietarios**, accesibles mediante API.
- **Abiertos**, con pesos descargables y ejecutables en local (algo especialmente relevante en entornos educativos donde se busca privacidad, control y experimentación técnica).

En definitiva, los modelos fundacionales son el “motor” que hace posible todos los recursos de generación y análisis de texto, audio, imagen y vídeo que veremos en este capítulo. Entender su naturaleza, sus límites y sus posibilidades es clave para utilizar estas herramientas de manera crítica, técnica y responsable.

<div class="flex flex-col text-sm pb-25" id="bkmrk-modalidad-%2F-uso-mode"><article class="text-token-text-primary w-full focus:outline-none [--shadow-height:45px] has-data-writing-block:pointer-events-none has-data-writing-block:-mt-(--shadow-height) has-data-writing-block:pt-(--shadow-height) [&:has([data-writing-block])>*]:pointer-events-auto scroll-mt-[calc(var(--header-height)+min(200px,max(70px,20svh)))]" data-scroll-anchor="true" data-testid="conversation-turn-14" data-turn="assistant" data-turn-id="request-6995d038-18b0-838c-8c21-d1a9ae9f8658-4" dir="auto" tabindex="-1"><div class="text-base my-auto mx-auto pb-10 [--thread-content-margin:--spacing(4)] @w-sm/main:[--thread-content-margin:--spacing(6)] @w-lg/main:[--thread-content-margin:--spacing(16)] px-(--thread-content-margin)"><div class="[--thread-content-max-width:40rem] @w-lg/main:[--thread-content-max-width:48rem] mx-auto max-w-(--thread-content-max-width) flex-1 group/turn-messages focus-visible:outline-hidden relative flex w-full min-w-0 flex-col agent-turn" tabindex="-1"><div class="flex max-w-full flex-col grow"><div class="min-h-8 text-message relative flex w-full flex-col items-end gap-2 text-start break-words whitespace-normal [.text-message+&]:mt-1" data-message-author-role="assistant" data-message-id="a4d92f5f-252d-4c9b-a4d7-3462f72cf465" data-message-model-slug="gpt-5-2" dir="auto"><div class="flex w-full flex-col gap-1 empty:hidden first:pt-[1px]"><div class="markdown prose dark:prose-invert w-full wrap-break-word light markdown-new-styling"><div class="TyagGW_tableContainer"><div class="group TyagGW_tableWrapper flex flex-col-reverse w-fit" tabindex="-1"><table class="w-fit min-w-(--thread-content-width)" data-end="3422" data-start="0"><thead data-end="218" data-start="0"><tr data-end="218" data-start="0"><th class="" data-col-size="md" data-end="47" data-start="0">**Modalidad / Uso**</th><th class="" data-col-size="md" data-end="93" data-start="47">**Modelo / Ejemplo**</th><th class="" data-col-size="md" data-end="163" data-start="93">**Descripción breve**</th><th class="" data-col-size="md" data-end="218" data-start="163">**Aplicación típica**</th></tr></thead><tbody data-end="3422" data-start="440"><tr data-end="671" data-start="440"><td data-col-size="md" data-end="487" data-start="440">**Texto / Lenguaje**</td><td data-col-size="md" data-end="533" data-start="487">GPT (OpenAI)</td><td data-col-size="md" data-end="611" data-start="533">Modelo de lenguaje preentrenado capaz de generación y comprensión de texto.</td><td data-col-size="md" data-end="671" data-start="611">Bots conversacionales, resúmenes y traducción de textos.</td></tr><tr data-end="892" data-start="672"><td data-col-size="md" data-end="719" data-start="672"> </td><td data-col-size="md" data-end="765" data-start="719">Claude (Anthropic)</td><td data-col-size="md" data-end="837" data-start="765">LLM orientado a respuestas coherentes y seguras.</td><td data-col-size="md" data-end="892" data-start="837">Asistencia en escritura y análisis de texto.</td></tr><tr data-end="1145" data-start="893"><td data-col-size="md" data-end="940" data-start="893">**Imagen**</td><td data-col-size="md" data-end="987" data-start="940">Stable Diffusion</td><td data-col-size="md" data-end="1058" data-start="987">Modelo generador de imágenes a partir de descripciones en texto.</td><td data-col-size="md" data-end="1145" data-start="1058">Creación de ilustraciones y diseños visuales.</td></tr><tr data-end="1364" data-start="1146"><td data-col-size="md" data-end="1193" data-start="1146"> </td><td data-col-size="md" data-end="1240" data-start="1193">DALL-E</td><td data-col-size="md" data-end="1310" data-start="1240">Generación de imágenes creativas desde instrucciones textuales.</td><td data-col-size="md" data-end="1364" data-start="1310">Arte digital y gráficos personalizados.</td></tr><tr data-end="1607" data-start="1365"><td data-col-size="md" data-end="1429" data-start="1365">**Audio / Voz (Reconocimiento – Speech-to-Text)**</td><td data-col-size="md" data-end="1476" data-start="1429">Whisper (OpenAI)</td><td data-col-size="md" data-end="1552" data-start="1476">Modelo para transcripción automática de voz a texto en múltiples idiomas.</td><td data-col-size="md" data-end="1607" data-start="1552">Transcripción de grabaciones y clases.</td></tr><tr data-end="1844" data-start="1608"><td data-col-size="md" data-end="1655" data-start="1608"> </td><td data-col-size="md" data-end="1712" data-start="1655">Modelos de reconocimiento y traducción de voz (varios)</td><td data-col-size="md" data-end="1789" data-start="1712">Modelos entrenados para convertir audio hablado en texto y/o traducir voz.</td><td data-col-size="md" data-end="1844" data-start="1789">Subtítulos automáticos y traducción de audio.</td></tr><tr data-end="2065" data-start="1845"><td data-col-size="md" data-end="1892" data-start="1845">**Audio / Voz (Síntesis – Text-to-Speech)**</td><td data-col-size="md" data-end="1939" data-start="1892">Modelos TTS comerciales</td><td data-col-size="md" data-end="2010" data-start="1939">Modelos que generan voz natural desde texto.</td><td data-col-size="md" data-end="2065" data-start="2010">Narración de contenidos y asistentes de voz.</td></tr><tr data-end="2375" data-start="2066"><td data-col-size="md" data-end="2138" data-start="2066">**Vídeo (Generación y Multimodal audiovisual)**</td><td data-col-size="md" data-end="2185" data-start="2138">Sora (OpenAI)</td><td data-col-size="md" data-end="2283" data-start="2185">Modelo de IA que genera vídeos realistas a partir de descripciones textuales, incluyendo audio.</td><td data-col-size="md" data-end="2375" data-start="2283">Producción de clips de vídeo con sonido integrado.</td></tr><tr data-end="2641" data-start="2376"><td data-col-size="md" data-end="2423" data-start="2376"> </td><td data-col-size="md" data-end="2470" data-start="2423">Veo 3 (Google DeepMind)</td><td data-col-size="md" data-end="2545" data-start="2470">Generador de vídeos con audio sincronizado a partir de texto y/o imagen.</td><td data-col-size="md" data-end="2641" data-start="2545">Creación de contenidos audiovisuales generados por IA.</td></tr><tr data-end="2900" data-start="2642"><td data-col-size="md" data-end="2689" data-start="2642"> </td><td data-col-size="md" data-end="2736" data-start="2689">Movie Gen (Meta)</td><td data-col-size="md" data-end="2812" data-start="2736">Modelo que produce vídeos completos con sonido desde textos descriptivos.</td><td data-col-size="md" data-end="2900" data-start="2812">Desarrollo de vídeos personalizados con audio.</td></tr><tr data-end="3186" data-start="2901"><td data-col-size="md" data-end="2955" data-start="2901">**Multimodal (Texto + Imagen + Audio + Vídeo)**</td><td data-col-size="md" data-end="3002" data-start="2955">Gemini (Google)</td><td data-col-size="md" data-end="3093" data-start="3002">Modelo multimodal que procesa y genera contenido en diferentes formatos simultáneamente.</td><td data-col-size="md" data-end="3186" data-start="3093">Asistentes que combinan texto, imagen, voz y vídeo.</td></tr><tr data-end="3422" data-start="3187"><td data-col-size="md" data-end="3234" data-start="3187"> </td><td data-col-size="md" data-end="3284" data-start="3234">Modelos multimodales unificados (investigación)</td><td data-col-size="md" data-end="3367" data-start="3284">Investigaciones académicas en modelos que integran texto, imagen, audio y vídeo.</td><td data-col-size="md" data-end="3422" data-start="3367">Proyectos de IA generalistas para múltiples tareas.</td></tr></tbody></table>

</div></div></div></div></div></div></div></div>Los **modelos fundacionales** son redes neuronales entrenadas con datos masivos y diseñadas para poder **adaptarse a numerosas tareas** tanto de generación como de comprensión en diferentes dominios de entrada y salida (texto, imagen, audio y vídeo). Su carácter generalista los convierte en la base sobre la que se construyen aplicaciones especializadas en IA.

</article></div>