Skip to main content

Modelos de IA

Los LLMs (Large Language Models) son modelos de lenguaje de gran tamaño (GPT, BERT, LLaMA, etc.) entrenados con enormes corpus de texto para tareas como generación de texto, traducción o respuesta a preguntas. Hugging Face describe la biblioteca Transformers que gestiona estos modelos, indicando que éstos se pueden usar en modalidades diversas: texto, imágenes, audio e incluso enfoques multimodales. Además de los LLMs “puro texto”, existen modelos de visión (CNNs, Vision Transformers, difusión estable) para clasificación/segmentación de imágenes, y modelos multimodales (p.ej. CLIP, LLaVA) que procesan simultáneamente texto e imagen. Todos ellos suelen derivar de un modelo fundacional (foundation model): grandes redes preentrenadas con datos genéricos a escala (por ejemplo OpenAI GPT o Google BERT). Estos modelos genéricos proporcionan las capacidades de base, que luego se ajustan (fine-tuning) o especializan para tareas concretas. Por ejemplo, un “modelo fundacional” genérico entrenado con texto diverso se puede luego finetunear para responder solo preguntas médicas. En resumen, los modelos actuales de IA suelen ser preentrenados en datos amplios y luego usados o adaptados a diferentes disciplinas científicas (biología, geología, matemáticas, etc.).