3.1 Introducción y modelos fundacionales
Introducción
Una vez que tenemos diseñada nuestra Situación de Aprendizaje, quizá necesitemos elaborar diferentes materiales o recursos didácticos a emplear durante el desarrollo de la misma. Para ello veremos qué utilidades nos pueden ofrecer algunos sistemas de inteligencia artificial generativa.
Recuerda que el contenido que le proporciones a la IA ha de ser de autoría propia o disponer de la licencia para poder utilizar ese contenido.
Modelos fundacionales: base de los recursos de texto, audio, imagen y vídeo
Cuando hablamos de generación automática de texto, transcripción de audio, creación de imágenes o análisis de vídeo con IA, en realidad estamos hablando de una misma idea tecnológica de fondo: los modelos fundacionales.
Un modelo fundacional es un modelo de inteligencia artificial entrenado con enormes cantidades de datos y diseñado para servir como base común sobre la que se construyen múltiples aplicaciones. No nace para hacer una única tarea concreta, sino para adaptarse a muchas: redactar textos, resumir documentos, traducir idiomas, describir imágenes, generar código, sintetizar voz o analizar contenido multimedia.
Empresas como OpenAI, Google DeepMind, Anthropic, Meta o Mistral AI han desarrollado modelos fundacionales que actúan como motores generales de inteligencia artificial. A partir de ellos se construyen asistentes conversacionales, generadores de presentaciones, sistemas de análisis documental, herramientas de edición multimedia o plataformas educativas.
La característica principal de estos modelos es su carácter generalista. A diferencia de los modelos tradicionales, que se entrenaban para una única tarea (por ejemplo, detectar spam o clasificar imágenes médicas), los modelos fundacionales se entrenan primero de forma masiva y después se adaptan mediante prompting, ajuste fino (fine-tuning) o integración con bases de datos externas (RAG). Esto permite reutilizar el mismo modelo para múltiples contextos.
En el ámbito de los recursos educativos y profesionales, esta base común explica por qué hoy podemos trabajar con:
-
Generación y transformación de textos (resúmenes, esquemas, traducciones, rúbricas).
-
Transcripción automática y síntesis de voz.
-
Generación y análisis de imágenes.
-
Creación o comprensión de vídeo.
-
Sistemas multimodales que combinan texto, imagen y audio en una misma interacción.
Muchos de estos modelos están construidos sobre arquitecturas tipo Transformer y pueden operar en una o varias modalidades. Algunos son exclusivamente de texto (LLMs), otros están especializados en visión o audio, y los más recientes son multimodales, capaces de integrar diferentes tipos de información en un único sistema.
Además, los modelos fundacionales pueden ser:
-
Propietarios, accesibles mediante API.
-
Abiertos, con pesos descargables y ejecutables en local (algo especialmente relevante en entornos educativos donde se busca privacidad, control y experimentación técnica).
En definitiva, los modelos fundacionales son el “motor” que hace posible todos los recursos de generación y análisis de texto, audio, imagen y vídeo que veremos en este capítulo. Entender su naturaleza, sus límites y sus posibilidades es clave para utilizar estas herramientas de manera crítica, técnica y responsable.
Los modelos fundacionales son redes neuronales entrenadas con datos masivos y diseñadas para poder adaptarse a numerosas tareas tanto de generación como de comprensión en diferentes dominios de entrada y salida (texto, imagen, audio y vídeo). Su carácter generalista los convierte en la base sobre la que se construyen aplicaciones especializadas en IA.
No comments to display
No comments to display