2.3 Modelos de Lenguaje y Procesamiento del Lenguaje Natural

Los modelos de lenguaje: cómo las máquinas aprenden a entender y generar texto

En los últimos años, uno de los avances más visibles dentro ~~del campo~~ de la inteligencia artificial ha sido el desarrollo de los modelos de lenguaje. ~~Estas herramientas son~~Son las tecnologías que permiten que hoy podamos conversar con sistemas de IA, pedirles que redacten textos, expliquen conceptos, generen código o resuman documentos.

~~Aunque desde~~Desde fuera ~~pueda~~puede parecer que estos sistemas ~~“piensan”~~piensan o ~~“razonan”~~razonan, pero en realidad su funcionamiento se basa en una idea ~~relativamente~~bastante ~~sencilla:~~simple: aprender patrones del lenguaje a partir de enormes cantidades de texto. Los modelos analizan millones o miles de millones de frases y aprenden qué palabras suelen aparecer juntas y en qué contexto.

Para ~~entender~~entenderlo de forma sencilla, podemos imaginarlo como cuando una persona ha leído miles de libros y conversaciones: poco a poco empieza a reconocer cómo se construyen las frases, cómo ~~funcionan~~se relacionan los conceptos y ~~por~~ qué ~~han~~tipo ~~evolucionado~~de ~~tan~~respuestas ~~rápido~~suelen aparecer en ~~los~~cada ~~últimos años, conviene ver primero su origen.~~situación.

Entrenamiento

Cómo dese entrena un modelo

~~El desarrollo reciente de los modelos~~ de lenguaje ~~ha hecho posible crear sistemas capaces de mantener conversaciones complejas, explicar conceptos científicos o resolver problemas matemáticos. Sin embargo, detrás~~

Detrás de estos sistemas existe un proceso técnico ~~complejo~~complejo. ~~que implica~~ ~~entrenar~~Los modelos ~~neuronales con grandes cantidades de datos~~.

~~Cuando se habla de “crear o entrenar tu propio chat”, en realidad se hace referencia a adaptar o construir un modelo~~ de lenguaje ~~que~~modernos ~~pueda~~se ~~responder~~entrenan ~~preguntas~~utilizando ~~dentro~~redes deneuronales unmuy ~~dominio determinado. Este proceso puede realizarse de diferentes formas y~~grandes con ~~distintos niveles de complejidad, desde entrenar un modelo desde cero hasta adaptar uno ya existente mediante técnicas como el~~ ~~fine-tuning~~.

~~Comprender este proceso, aunque sea de forma conceptual, resulta útil para entender cómo funcionan los sistemas de inteligencia artificial actuales.~~

Qué significa entrenar un modelo de lenguaje

~~Entrenar un modelo de lenguaje consiste en~~ ~~ajustar~~ millones o incluso miles de millones de ~~parámetros~~parámetros. ~~de una red neuronal~~ ~~para que aprenda patrones del lenguaje humano.~~

Durante el entrenamiento, el modelo aprende auna tarea muy concreta: predecir la siguiente palabra (o ~~token~~token) endentro de una ~~secuencia~~frase.

~~de texto.~~

Por ejemplo, si el modelo recibe launa ~~frase:~~frase como:

“La fotosíntesis es el proceso mediante el cual las plantas…”

el ~~modelo~~sistema ~~aprende~~calcula ~~que~~qué palabras ~~como~~tienen más probabilidad de aparecer a continuación: producen, generan o, transforman, ~~tienen una alta probabilidad de aparecer a continuación.~~etc.

Al repetir este proceso millones de veces con grandes conjuntos de ~~datos,~~texto, el modelo ~~aprende:~~acaba aprendiendo:

gramática y estructura del lenguaje
relaciones entre conceptos
patrones comunes de razonamiento
conocimiento general ~~del~~presente ~~mundo.~~en los datos

Cuando el entrenamiento ~~finaliza,~~termina, el modelo puede generar texto nuevo ~~basándose en~~utilizando esos patrones aprendidos.

Etapas

Las etapas para entrenarconstruir un chatsistema basado en IA

conversacional

El desarrollo de un sistema conversacional basado en ~~modelos de lenguaje~~IA suele implicar varias ~~etapas.~~fases.

1. Recopilación delde dataset

datos

El primer paso consiste en reunir un gran conjunto de ~~datos~~textos que sirva para entrenar el modelo. Estos datos suelen ~~ser grandes colecciones~~proceder de ~~texto~~muchas ~~procedentes~~fuentes dedistintas, ~~diferentes fuentes:~~como:

libros
artículos científicos
páginas web
~~documentos~~documentación ~~técnicos~~técnica
~~conversaciones.~~conversaciones

En modelos orientados a un ámbito específico —por ejemplo, educación ~~científica,~~científica— los datos ~~podrían~~pueden ~~incluir:~~

incluir

explicaciones de ~~biología~~
biología,

problemas resueltos de física

ejercicios de ~~matemáticas~~matemáticas.

~~textos de química.~~

La calidad ~~del~~de ~~dataset~~los datos es ~~fundamental,~~crucial, ~~ya que~~porque el modelo ~~aprenderá~~aprende directamente de esos ~~ejemplos.~~ejemplos.

2. PreprocesamientoPreparación dedel los datos

texto

Antes de entrenar el modelo, los ~~textos~~datos deben ~~prepararse~~prepararse. ~~mediante~~Esto ~~varios~~implica ~~pasos.~~

limpiar

~~Entre~~los ~~ellos:~~

textos,

~~limpieza del texto~~

~~eliminación de~~eliminar duplicados y normalizar formatos.

~~normalización de formato~~

~~filtrado de contenido irrelevante.~~

Después se realiza un proceso llamado tokenización, en el que el texto se divide en unidades más pequeñas llamadas tokens.

~~Los~~Un ~~tokens~~token ~~pueden~~puede ~~ser:~~

ser

una

palabra,
~~palabras~~

~~partes~~parte de ~~palabras~~una palabra o incluso un símbolo.

~~caracteres.~~

Por ejemplo, launa ~~palabra~~frase ~~biología~~como:

~~podría~~

~~dividirse~~
“La inteligencia artificial aprende rápido”

se transforma en ~~varios~~una secuencia de tokens ~~dependiendo~~que ~~del~~el ~~modelo.~~modelo puede procesar numéricamente.

3. Entrenamiento del modelo

Una vez preparados los datos, comienza el ~~proceso~~entrenamiento. ~~de entrenamiento.~~

El modelo recibe una secuencia de tokens y debe predecir cuál será el siguiente ~~token.~~. Si lase ~~predicción es incorrecta,~~equivoca, el algoritmo ajusta los parámetros de la red neuronal para mejorar ella ~~resultado.~~predicción.

Este proceso se repite millones de veces.

Con el tiempo, el modelo aprende patrones cada vez más complejos ~~como:~~del lenguaje.

~~relaciones entre conceptos científicos~~

~~estructuras gramaticales~~

~~formas de resolver problemas.~~

Los modelos actuales suelen basarse en la arquitectura Transformer, que utiliza mecanismos de atención para analizar ellas ~~contexto~~relaciones ~~de las~~entre palabras dentro de una ~~frase.~~frase y comprender mejor el contexto.

4. Ajuste para conversación

Un modelo entrenado con texto general no necesariamente sabe mantener ~~conversaciones.~~una conversación. Por ~~ello~~eso suele realizarse una fase adicional ~~para~~de ~~adaptarlo~~ajuste alen ~~diálogo.~~la que el sistema aprende a responder preguntas o a interactuar con usuarios.

~~Esto~~Para ~~puede~~ello ~~hacerse~~se ~~mediante:~~

utilizan

~~datasets de preguntas y respuestas~~

ejemplos de ~~conversación~~
diálogo

~~técnicas~~pares de ~~alineamiento.~~

~~Por ejemplo, el modelo puede entrenarse con pares~~pregunta–respuesta, como:

Pregunta:

¿Qué es la ley de Ohm?

Respuesta:

La ley de Ohm establece que la intensidad de corriente que circula por un conductor es proporcional al voltaje aplicado…

Este ~~tipo de ejemplos~~proceso enseña al modelo a ~~responder~~generar ~~preguntas~~respuestas demás ~~forma~~estructuradas ~~estructurada.~~y útiles.

5. Evaluación y mejora

~~Después~~Una ~~del~~vez ~~entrenamiento~~entrenado, el modelo se ~~evalúa~~somete ela ~~comportamiento~~diferentes ~~del~~pruebas ~~modelo.~~

para

~~Se comprueba~~comprobar si:

responde correctamente a preguntas
mantiene coherencia en conversaciones
evita generar información ~~incorrecta.~~incorrecta

En función de los resultados, se pueden ~~realizarse~~realizar ~~nuevas~~nuevos ~~iteraciones~~ajustes o mejoras en el entrenamiento.

NLP, LLM y el auge de entrenamientola IA generativa

El Procesamiento del Lenguaje Natural (NLP) es el área de la inteligencia artificial que intenta que las máquinas puedan comprender, analizar y generar lenguaje humano. Durante muchos años, las técnicas de NLP se basaban en reglas lingüísticas o ~~ajustes~~modelos ~~adicionales.~~estadísticos relativamente simples. Estos métodos permitían realizar tareas concretas, como clasificar textos o detectar palabras clave, pero tenían limitaciones importantes cuando se trataba de comprender el contexto completo de una frase o manejar conversaciones complejas.

Entrenarpanorama uncambió modeloradicalmente desde cero vs adaptar un modelo existente

Encon la ~~práctica~~llegada ~~existen~~del ~~dos~~Deep ~~formas~~Learning ~~principales~~y, especialmente, con la arquitectura transformer, que permitió construir modelos capaces de ~~crear~~analizar ungrandes ~~chat~~cantidades ~~propio.~~

Entrenartexto un modelo desde cero

~~Consiste~~teniendo en ~~construir~~cuenta el ~~modelo~~contexto ycompleto ~~entrenarlo~~de ~~completamente~~las palabras. A partir de estos avances surgieron los Large Language Models (LLM), modelos de lenguaje entrenados con enormes colecciones de texto que pueden realizar múltiples tareas lingüísticas con un ~~dataset~~único ~~propio.~~sistema.

~~Esto~~Gracias ~~requiere:~~a estos modelos, muchas tareas clásicas de NLP pueden abordarse hoy de forma más eficiente y flexible. En lugar de construir un sistema diferente para cada tarea —por ejemplo, uno para traducir textos y otro para resumir documentos— los LLM pueden resolver muchas de estas tareas simplemente mediante instrucciones o ejemplos.

Entre las principales tareas del NLP encontramos varias que hoy se utilizan de forma cotidiana en múltiples aplicaciones tecnológicas:

~~grandes~~Traducción ~~cantidades~~automática, deque ~~datos~~permite traducir textos entre diferentes idiomas.
~~infraestructura~~Análisis de ~~computación~~sentimiento, ~~avanzada~~utilizado para detectar opiniones positivas o negativas en redes sociales o reseñas de productos.
Clasificación de textos, por ejemplo para detectar spam o categorizar documentos.

Reconocimiento de entidades, que identifica nombres de personas, lugares o organizaciones dentro de un texto.

Resumen automático de documentos, útil para procesar grandes cantidades de información.

Sistemas de pregunta-respuesta, capaces de responder preguntas sobre un texto o una base de conocimiento.

Conversación automática, como la que se produce en chatbots y asistentes virtuales.

A partir de estas capacidades del NLP han surgido muchas aplicaciones de IA generativa, donde los modelos no solo analizan información, sino que también crean contenido nuevo. Los modelos actuales pueden generar textos completos, redactar artículos, producir código de programación, crear resúmenes o mantener conversaciones relativamente complejas con los usuarios.

Esto ha dado lugar a una gran variedad de herramientas basadas en modelos de lenguaje: asistentes conversacionales, sistemas de apoyo a la programación, motores de búsqueda inteligentes o plataformas educativas capaces de generar explicaciones y ejercicios. Además, estos modelos también se utilizan para generar otros tipos de contenido, como imágenes, audio o vídeo, combinando el lenguaje con otros tipos de datos.

En definitiva, el NLP ha pasado de ser un campo especializado dentro de la inteligencia artificial a convertirse en uno de los motores principales de la IA actual. Los avances en Deep Learning y en los modelos de lenguaje han permitido que las máquinas interactúen con el lenguaje humano de una forma mucho más natural, lo que explica el rápido crecimiento de aplicaciones basadas en chatbots, asistentes inteligentes y sistemas generativos.

Ampliando los modelos

En la práctica, cuando se quiere construir un sistema conversacional o un chatbot basado en inteligencia artificial, existen dos caminos principales. El primero sería entrenar un modelo completamente desde cero, lo que implica construir la red neuronal y alimentarla con enormes cantidades de datos para que aprenda el lenguaje. Este proceso requiere infraestructuras muy potentes, grandes centros de datos y semanas o meses de ~~entrenamiento.~~

entrenamiento, por lo

~~Por~~que ~~esta razón, suele realizarse~~normalmente solo enestá al alcance de grandes empresas tecnológicas o centros de investigación.

Por

Adaptaresta razón, lo más habitual hoy en día no es empezar desde cero, sino partir de un modelo existente

ya entrenado y adaptarlo a una tarea concreta. Los grandes modelos de lenguaje ya poseen un conocimiento general del lenguaje porque han sido entrenados con enormes colecciones de texto. A partir de ahí se pueden ajustar o especializar mediante distintas técnicas.

EsUna de las más conocidas es el fine-tuning, que consiste en volver a entrenar el modelo con un conjunto de datos más pequeño y específico para que aprenda el vocabulario, el estilo o los patrones de un determinado dominio. Por ejemplo, un modelo general puede adaptarse para responder preguntas médicas, jurídicas o educativas entrenándolo con ejemplos propios de ese ámbito. En este proceso se ajustan los parámetros internos del modelo para que responda mejor en ese contexto concreto.

Otra técnica muy utilizada es RAG (Retrieval-Augmented Generation), que en lugar de modificar el modelo permite conectarlo a fuentes de información externas, como bases de datos o colecciones de documentos. Cuando el usuario hace una pregunta, el sistema primero busca información relevante en esos documentos y luego utiliza el modelo de lenguaje para generar la ~~opción~~respuesta ~~más~~combinando ~~habitual.~~su conocimiento previo con esos datos recuperados. De esta forma el modelo puede trabajar con información actualizada o especializada sin necesidad de volver a entrenarlo.

También se utilizan estrategias de prompting avanzado, que consisten en diseñar cuidadosamente las instrucciones o ejemplos que se proporcionan al modelo para guiar su comportamiento. En muchos casos, una buena forma de plantear la pregunta o proporcionar contexto adicional puede mejorar notablemente la calidad de las respuestas.

En ~~este~~definitiva, ~~caso~~los modelos de lenguaje actuales no funcionan como una mente humana que razona de forma consciente. Su comportamiento se ~~utiliza~~basa unen ~~modelo~~aprender ~~preentrenado~~patrones estadísticos del lenguaje a partir de grandes cantidades de datos y utilizar esos patrones para generar nuevas frases. Sin embargo, cuando estos modelos se entrenan a gran escala y se ~~adapta~~combinan ~~mediante~~con técnicas ~~como:~~como el fine-tuning o el RAG, pueden producir respuestas sorprendentemente coherentes y útiles.

Para

~~fine-tuning~~

~~RAG~~

~~prompting avanzado.~~

~~Esto permite crear chats especializados~~visualizarlo con ~~menos~~un ~~recursos.~~

ejemplo

educativo,

Ejemplo conceptual en educación científica

~~Imaginemos~~imaginemos que queremos ~~entrenar~~construir un modelo orientado a resolver problemas de física de ~~bachillerato~~.

bachillerato.

El ~~dataset~~sistema podría ~~incluir~~entrenarse con miles de ejemplos ~~como:~~donde aparece una pregunta y su resolución paso a paso. Por ejemplo:

~~Pregunta:~~

“Un objeto de 5 kg acelera a 2 m/s². Calcula la fuerza aplicada.
”
El

modelo

~~Respuesta:~~

aprendería

que
~~Aplicamos~~debe aplicar la segunda ley de ~~Newton:~~
Newton, usar la fórmula F = m · a
F =y 5calcular ×el 2
~~F = 10 N.~~resultado.

Del

mismo modo, podría entrenarse con ejemplos de biología —como preguntas sobre la función del ADN— o de química, como ajustar ecuaciones químicas. Con suficientes ejemplos, el modelo ~~aprendería~~acaba aprendiendo los patrones de explicación y resolución de problemas que aparecen en esos campos.

Esto explica por qué hoy es posible crear asistentes especializados en educación, ciencia o cualquier otro ámbito: no porque la máquina “entienda” el ~~patrón~~conocimiento decomo ~~resolución.~~

haría

Ejemplouna enpersona, biología

sino

~~Dataset~~porque deha ~~ejemplo:~~

aprendido

~~Pregunta:~~

cómo
suelen
~~¿Cuál es la función del ADN?~~

~~Respuesta:~~

~~El ADN contiene la información genética que permite a~~formularse las ~~células fabricar proteínas y transmitir características hereditarias.~~

~~Ejemplo en química~~

~~Pregunta:~~

~~Ajusta la ecuación: H₂ + O₂ → H₂O.~~

~~Respuesta:~~

~~La ecuación ajustada es: 2H₂ + O₂ → 2H₂O.~~

~~Recursos para comprender cómo se entrenan los modelos~~

~~Uno de los investigadores que mejor ha explicado públicamente estos procesos es~~ ~~Andrej Karpathy~~~~, antiguo investigador de~~ ~~OpenAI~~ ~~y profesor en~~ ~~Stanford University~~.

~~Su trabajo divulgativo explica con claridad cómo funcionan los modelos de lenguaje~~preguntas y cómo ~~pueden~~suelen ~~entrenarse.~~
construirse

Unlas ~~vídeo~~respuestas ~~muy recomendable es:~~

~~En este vídeo se muestra paso a paso cómo construir un pequeño modelo~~dentro de ~~lenguaje~~esos ~~similar a~~ ~~GPT~~~~, explicando:~~dominios.

~~tokenización~~

~~arquitectura Transformer~~

~~entrenamiento del modelo~~

~~generación de texto.~~

~~También es muy interesante su vídeo:~~

~~En él se ofrece una explicación clara de cómo funcionan los LLM modernos.~~

Conclusión

Entrenar un chat basado en modelos de lenguaje es un proceso que combina grandes conjuntos de datos, redes neuronales profundas y algoritmos de aprendizaje automático. Aunque los modelos actuales requieren infraestructuras complejas para su entrenamiento completo, comprender su funcionamiento ayuda a entender cómo la inteligencia artificial es capaz de generar texto, responder preguntas y mantener conversaciones.

Desde un punto de vista conceptual, el entrenamiento de un chat implica varias etapas: recopilación de datos, preprocesamiento, entrenamiento del modelo, ajuste para conversación y evaluación. Estas fases permiten transformar grandes colecciones de texto en sistemas capaces de interactuar con las personas.

Hoy en día, la mayoría de aplicaciones no entrenan modelos desde cero, sino que adaptan modelos existentes mediante técnicas como el fine-tuning o el uso de datos externos. Sin embargo, el principio fundamental sigue siendo el mismo: ~~aprender patrones del lenguaje a partir de grandes cantidades de ejemplos~~.

Comprender este proceso permite interpretar mejor las capacidades y limitaciones de los sistemas de inteligencia artificial que utilizamos actualmente y abre la puerta a desarrollar herramientas cada vez más especializadas en campos como la educación científica.

El origen: enseñar a las máquinas a predecir palabras

~~Los modelos de lenguaje nacen de una pregunta aparentemente simple:~~

~~¿Puede una máquina aprender a predecir cuál será la siguiente palabra de una frase?~~

~~Por ejemplo, en una frase como:~~

~~“Hoy hace mucho ___”~~

~~La mayoría de las personas completaría la frase con palabras como~~ ~~calor~~, ~~frío~~ o ~~viento~~~~. Nuestro cerebro aprende estas probabilidades porque ha estado expuesto al lenguaje durante años.~~

~~Los modelos de lenguaje hacen algo parecido. Durante su entrenamiento analizan~~ ~~millones o incluso billones de palabras~~ ~~procedentes de libros, páginas web, artículos o conversaciones.~~

~~Su objetivo principal es aprender a responder a una pregunta muy concreta:~~

~~¿Qué palabra es más probable que venga después en una secuencia de texto?~~

~~A partir de esta tarea aparentemente simple, los modelos terminan aprendiendo una enorme cantidad de conocimiento implícito sobre:~~

~~gramática~~

~~estilo~~

~~contexto~~

~~relaciones entre conceptos~~

~~estructuras narrativas~~

~~Este aprendizaje estadístico del lenguaje es lo que permite que puedan generar textos coherentes.~~

La evolución de los modelos de lenguaje

Durante muchos años los modelos de lenguaje eran relativamente simples. ~~Utilizaban~~Funcionaban con métodos estadísticos que analizaban secuencias cortas de ~~palabras.~~

palabras

para calcular probabilidades. Por ejemplo, ~~los sistemas~~ podían ~~calcular~~estimar ~~probabilidades~~que ~~como:~~

después de la expresión “buenos” es muy probable que aparezca “días”, o que después de “por favor” suele venir “~~días”~~
gracias”.

Estos

sistemas
~~después~~eran útiles para tareas básicas como corrección automática o predicción de ~~“por~~palabras, ~~favor” suele venir “gracias”~~

~~Sin embargo, estos modelos~~pero tenían una limitación importante: solo podían manejar contextos muy pequeños. y apenas entendían el significado global de una frase.

El gran salto llegó con el desarrollo del Deep Learning yaplicado ~~especialmente~~al lenguaje y, sobre todo, con la aparición en 2017 de la arquitectura Transformer, presentada en ~~2017~~el famoso artículo Attention is All You Need. Esta arquitectura introdujo el mecanismo de atención.

~~Los Transformers permitieron~~, que permite a los modelos ~~analizaran~~ ~~frases completas, párrafos e incluso documentos enteros~~~~, entendiendo las~~analizar relaciones entre palabras dentro de una frase completa e incluso entre frases muy ~~distantes~~separadas dentro de un texto. Gracias a esta innovación, los sistemas podían captar mejor el contexto y procesar el lenguaje de forma mucho más eficiente que los modelos anteriores basados en redes recurrentes.

A partir de ese momento ~~surgieron~~comenzaron a desarrollarse los llamados Large Language Models (LLM), o modelos de lenguaje de gran ~~tamaño~~tamaño. Estos modelos utilizan redes neuronales profundas entrenadas con enormes cantidades de texto procedente de libros, páginas web, artículos científicos o conversaciones. Su objetivo es aprender los patrones del lenguaje para poder comprender y generar texto coherente.

Algunos
Uno de los hitos importantes fue el lanzamiento de la familia GPT de OpenAI. El primer modelo, GPT-1, apareció en 2018 con unos 117 millones de parámetros. Poco después llegó GPT-2, que ya alcanzaba alrededor de 1.500 millones de parámetros. En 2020 se presentó GPT-3, con aproximadamente 175.000 millones de parámetros, lo que permitió generar textos sorprendentemente coherentes y realizar múltiples tareas lingüísticas con un mismo modelo.

En paralelo surgieron otros modelos importantes. Por ejemplo, BERT, desarrollado por Google, se centró en mejorar la comprensión del lenguaje utilizando representaciones bidireccionales del contexto. Este modelo se convirtió en uno de los más importantesinfluyentes actualmente

en tareas de NLP como clasificación de textos o sistemas de pregunta-respuesta.

Con el tiempo, la investigación en modelos de lenguaje se aceleró enormemente. En la actualidad existen numerosos ~~modelos de lenguaje~~LLM desarrollados tanto por grandes empresas tecnológicas ycomo por comunidades de ~~investigación.~~investigación abiertas.

Entre los más conocidos podemos mencionar:

GPT (OpenAI)
~~Es uno de los modelos más populares.~~ La familia GPT (Generative Pre-trained Transformer) haes ~~sido~~probablemente ~~responsable~~la demás ~~gran~~popular. ~~parte~~Estos ~~del~~modelos han impulsado el auge reciente de los asistentes ~~conversacionales.~~conversacionales y de muchas herramientas de IA generativa.

Gemini (Google)
~~Modelo~~Es ~~desarrollado~~la evolución de los modelos de lenguaje desarrollados por ~~Google~~Google. ~~que~~Está ~~integra~~diseñado ~~capacidades~~para trabajar de ~~lenguaje,~~forma ~~razonamiento~~multimodal, combinando texto, imágenes y ~~multimodalidad~~otros ~~(texto,~~tipos ~~imágenes,~~de ~~etc.).~~información.

Claude (Anthropic)
UnEste modelo se ha diseñado ~~con~~poniendo especial ~~atención~~énfasis aen la seguridad y alel alineamiento con valores ~~humanos.~~humanos, intentando reducir riesgos asociados al uso de la inteligencia artificial.

Llama (Meta)
Una ~~familia~~de las familias de modelos ~~muy~~más ~~influyente~~influyentes ~~porque~~en ~~varias~~el ecosistema open source. Varias versiones han sido liberadas ~~como~~públicamente, ~~open~~lo ~~source~~,que ~~permitiendo~~ha permitido a investigadores y desarrolladores ~~utilizarlos~~crear ynuevas ~~adaptarlos.~~aplicaciones basadas en ellos.

Mistral
~~Uno~~Un proyecto europeo que ha ganado relevancia por desarrollar modelos relativamente eficientes, capaces de ~~los~~ofrecer ~~proyectos~~buen ~~europeos más interesantes en el campo de los modelos abiertos, con modelos eficientes que pueden ejecutarse~~rendimiento incluso en ~~equipos~~hardware ~~relativamente~~más ~~modestos.~~modesto.

Qwen (Alibaba)
Una familia de modelos ~~muy~~que ~~competitiva~~ha demostrado un rendimiento competitivo en ~~varios~~múltiples idiomas y que también cuenta con versiones accesibles para uso local.

~~Estos~~Aunque estos modelos comparten una ~~misma~~ base tecnológica común —los ~~Transformers—~~transformers— ~~pero~~pueden ~~difieren~~diferir mucho en ~~aspectos~~distintos aspectos: el tamaño del modelo, los datos utilizados para entrenarlo, las optimizaciones internas o las licencias de uso.

En conjunto, la evolución de los modelos de lenguaje ha sido extraordinariamente rápida. En apenas una década se ha pasado de sistemas capaces de completar frases simples a modelos que pueden mantener conversaciones complejas, explicar conceptos científicos, generar código o analizar grandes cantidades de información. Esta evolución ha sido uno de los factores clave que han impulsado el desarrollo de la IA generativa moderna y la proliferación de asistentes inteligentes en múltiples ámbitos.

Parametrización de modelos

Para comprender cómo funcionan realmente los modelos de lenguaje actuales, conviene conocer algunos conceptos fundamentales. Estos conceptos explican cómo procesan el texto, cómo se entrenan, qué recursos necesitan y por qué algunos modelos son enormes mientras otros pueden ejecutarse en un ordenador personal.

1. Tokens: las unidades básicas del lenguaje

Los modelos de lenguaje no trabajan directamente con palabras completas como hacemos los humanos. En su lugar, el texto se divide en pequeñas unidades llamadas tokens.

Un token puede ser:

una palabra completa

parte de una palabra

un número

un signo de puntuación

Por ejemplo, una palabra larga como “computadora” puede dividirse en varios tokens dependiendo del sistema de tokenización utilizado.

Los tokens son importantes por varias razones:

determinan cuánta información puede procesar el modelo

influyen en el coste de uso de muchos servicios de IA

marcan la longitud máxima de una conversación

Los modelos generan texto prediciendo el siguiente token más probable basándose en los tokens anteriores.

2. Contexto: la memoria del modelo

El contexto (o context window) es la cantidad de texto que el modelo puede analizar al mismo tiempo. En otras palabras, es la cantidad de tokens que el modelo puede “recordar” durante una conversación o una tarea.

Cuanto mayor es el contexto, más información puede utilizar el modelo para responder.

Esto es clave en tareas como:

~~tamaño~~analizar documentos largos
~~datos~~resumir ~~de entrenamiento~~informes
~~optimización~~revisar código
~~licencias~~mantener deconversaciones ~~uso~~complejas

Los modelos antiguos tenían contextos muy pequeños (unos cientos o miles de tokens). Hoy existen modelos capaces de manejar cientos de miles o incluso millones de tokens, lo que permite analizar documentos muy extensos o incluso libros completos.

Sin embargo, aumentar el contexto también aumenta el coste computacional, porque el cálculo de atención en los transformers crece rápidamente con la longitud del texto.

Modelos

3. Prompt: la instrucción que guía al modelo

El prompt es la instrucción o pregunta que el usuario proporciona al modelo.

Puede ser algo simple:

“Explica qué es la fotosíntesis”

o algo más elaborado:

“Explica la fotosíntesis para alumnos de 1º de ESO usando ejemplos sencillos”.

La forma en que se formula el prompt influye mucho en la calidad de la respuesta. Por eso en los últimos años ha surgido una disciplina conocida como ingeniería de prompting, que estudia cómo diseñar instrucciones eficaces para los modelos.

4. Cómo se entrenan los modelos de lenguaje

Los LLM se entrenan utilizando redes neuronales profundas basadas en transformers y enormes colecciones de texto.

Durante el entrenamiento el modelo aprende a predecir el siguiente token en una secuencia. Por ejemplo:

“La fotosíntesis es el proceso mediante el cual las plantas…”

El modelo aprende que las siguientes palabras más probables pueden ser:

producen

generan

transforman

Este proceso se repite billones de veces con grandes conjuntos de datos.

Los datasets utilizados suelen incluir:

páginas web

libros

artículos científicos

código fuente

documentos técnicos

Por ejemplo, algunos modelos se han entrenado con más de un billón de tokens de texto procedentes de múltiples fuentes públicas.

5. Tamaño del modelo: los parámetros

Otro concepto clave es el número de parámetros.

Los parámetros son los valores internos que la red neuronal ajusta durante el entrenamiento para aprender patrones.

Algunos ejemplos aproximados:

GPT-1 → 117 millones de parámetros

GPT-2 → 1.500 millones

GPT-3 → 175.000 millones

El aumento del número de parámetros permitió mejoras importantes en la capacidad de los modelos para comprender y generar texto.

Sin embargo, los modelos más grandes requieren enormes recursos de computación.

6. Coste de entrenamiento y recursos necesarios

Entrenar modelos de lenguaje es extremadamente costoso.

Por ejemplo:

entrenar un modelo de 13 mil millones de parámetros puede costar alrededor de 1 millón de dólares y requerir miles de GPUs funcionando durante semanas.

Entrenar modelos gigantes como GPT-3 puede costar millones de dólares en infraestructura y energía.

Por esta razón, la mayoría de organizaciones no entrenan modelos desde cero, sino que adaptan modelos ya existentes mediante técnicas como:

fine tuning

LoRA

RAG

prompt engineering

Estas técnicas permiten especializar modelos sin repetir todo el entrenamiento.

7. Tabla resumen de algunos modelos populares

Modelo	Organización	Tipo	Parámetros aproximados	Características
GPT-4 / GPT-4o	OpenAI	Propietario	No público	Muy potente, multimodal
Gemini	Google	Propietario	No público	Multimodal, gran contexto
Claude	Anthropic	Propietario	No público	Contexto muy grande
Llama 3	Meta	Abierto	hasta ~70B	Muy usado en investigación
Mistral	Mistral AI	Abierto	7B–Mixtral	Muy eficiente
Qwen	Alibaba	Abierto / mixto	7B–72B	Multilingüe
Falcon	TII	Abierto	hasta 180B	Muy popular en open source
GPT-J	EleutherAI	Abierto	6B	Uno de los primeros LLM abiertos

Tipos de modelos de lenguaje: propietarios, abiertos, online y locales

Hoy en día los modelos ~~offline~~de lenguaje pueden clasificarse de varias formas según cómo se distribuyen, cómo se ejecutan y qué grado de acceso tenemos a ellos. Comprender estas diferencias es importante porque determina cómo podemos utilizarlos, qué recursos necesitamos y qué control tenemos sobre los datos.

~~Otra~~Una primera distinción importante es entre ~~cómo~~modelos sepropietarios ~~utilizan estos~~y modelos abiertos.

Modelos
Los accesiblesmodelos mediantepropietarios API

son

~~Muchas~~desarrollados por grandes empresas ~~ofrecen~~tecnológicas que no publican completamente su arquitectura, sus ~~modelos~~datos de entrenamiento o sus pesos internos. El acceso suele realizarse a través de plataformas online o APIs. Ejemplos conocidos son los modelos ~~APIs~~ ~~(interfaces~~GPT de ~~programación)~~OpenAI, Gemini de Google o Claude de Anthropic. ~~Esto~~Estos ~~significa~~modelos suelen ofrecer un rendimiento muy alto porque están entrenados con enormes infraestructuras y grandes volúmenes de datos. Sin embargo, su uso depende de las condiciones de la empresa que los desarrolla y normalmente implica acceso a través de servicios en la nube.

Por otro lado, existen los modelos abiertos u open source, en los que gran parte del modelo se publica para que investigadores y desarrolladores ~~pueden~~puedan ~~enviar~~utilizarlos, estudiarlos o adaptarlos. Ejemplos conocidos son Llama (Meta), Mistral, Falcon o algunas versiones de Qwen. Estos modelos han impulsado mucho la investigación porque permiten experimentar, crear nuevas aplicaciones o ejecutar inteligencia artificial sin depender completamente de grandes plataformas tecnológicas.

Otra clasificación muy importante es la forma en la que se ejecutan los modelos: online o localmente.

Muchos modelos actuales se utilizan a través de APIs en la nube. En este modelo, el usuario o el desarrollador envía una consulta ala ~~modelo~~un servidor a través de internet y ~~recibir~~recibe ~~una~~la ~~respuesta.~~

respuesta

del modelo. Este enfoque tiene varias ventajas:

no requiere disponer de hardware ~~potente~~
potente,

permite

~~acceso inmediato~~acceder a modelos muy grandes

las
~~actualizaciones~~empresas ~~constantes~~
pueden

actualizar

continuamente

los sistemas. Sin embargo, también ~~presenta~~implica ~~algunas limitaciones:~~

dependencia de ~~internet~~
conexión

internet,
posibles costes de uso

menor control sobre los datos ~~enviados~~enviados.

Frente

este

Modelosmodelo ejecutadoshan localmentesurgido (offline)

Enen los últimos años ~~han surgido~~ herramientas que permiten ejecutar modelos de lenguaje directamente en un ordenador local.

sin necesidad de conexión a internet. Plataformas ~~como:~~

como

Ollama
,

LM Studio

text-generation-webui

permiten descargar modelos y utilizarlos ~~sin~~de ~~conexión~~forma aprivada ~~internet.~~en el propio equipo. Estas herramientas actúan como gestores que permiten instalar, ejecutar y probar modelos de lenguaje en local.

~~Este~~El ~~enfoque~~uso local tiene varias ventajas ~~importantes:~~

importantes.

Por

un
~~mayor~~lado, mejora la privacidad
,

que
~~control~~las ~~total~~consultas ~~sobre~~y los ~~datos~~
documentos

analizados

no
~~posibilidad~~salen dedel ordenador o del servidor interno. Además, permite integrar ~~el modelo~~modelos en sistemas propios

entornos corporativos sin depender de servicios externos. Por ejemplo, una organización puede cargar documentos internos y crear un sistema de consulta ~~privado~~basado en IA sin ~~que~~enviar esa información a servicios en la ~~información salga de sus servidores.~~nube.

Finalmente,

Modelostambién open source y modelos propietarios

~~También es habitual~~podemos distinguir entre modelos ~~abiertos~~grandes y modelos ~~propietarios~~ligeros.

Modelos propietarios

~~Son desarrollados por empresas que no publican completamente el modelo ni sus datos de entrenamiento.~~

~~Ejemplos conocidos:~~

~~GPT~~

~~Gemini~~

~~Claude~~

~~Suelen ofrecer~~ ~~alto rendimiento~~~~, pero su uso depende de las condiciones de la empresa que los desarrolla.~~

Modelos open source

~~En estos casos el modelo (o al menos gran parte de él) se publica para que investigadores y desarrolladores puedan utilizarlo, modificarlo o adaptarlo.~~

~~Ejemplos:~~

~~Llama~~

~~Mistral~~

~~Falcon~~

~~Qwen open~~

~~Este enfoque favorece la~~ ~~investigación, la transparencia y la innovación~~~~, ya que muchas personas pueden experimentar con los modelos.~~

Conceptos clave para entender cómo funcionan

~~Cuando se trabaja con modelos de lenguaje aparecen algunos conceptos fundamentales que conviene entender.~~

Tokens

Los modelos nomás ~~trabajan~~grandes ~~exactamente~~pueden ~~con~~tener ~~palabras, sino con~~ ~~tokens~~.

~~Un token puede ser:~~

~~una palabra~~

~~parte de una palabra~~

~~un signo de puntuación~~

~~Por ejemplo, la palabra~~ ~~“computadora”~~ ~~podría dividirse en varios tokens.~~

~~El número de tokens determina en muchos casos:~~

~~el coste de uso en APIs~~

~~el tamaño de la conversación que puede procesar el modelo~~

Contexto

El ~~contexto~~ ~~es la cantidad de texto que el modelo puede analizar a la vez.~~

~~En modelos antiguos el contexto era muy pequeño. Hoy existen modelos capaces de manejar~~ cientos de miles de ~~tokens~~,millones lode parámetros y requieren grandes infraestructuras para funcionar. Son los que ~~permite~~suelen ~~analizar documentos completos, libros o conversaciones largas.~~

~~El contexto es clave para tareas como:~~

~~resumir documentos~~

~~analizar informes~~

~~mantener diálogos complejos~~

Prompt

El ~~prompt~~ ~~es la instrucción que damos al modelo.~~

~~La forma~~utilizarse en ~~que se formula un prompt puede influir mucho~~servicios en la ~~calidad~~nube. En cambio, han aparecido versiones más ligeras o compactas que sacrifican parte del rendimiento a cambio de lapoder ~~respuesta.~~ejecutarse ~~Por~~en ~~eso~~ordenadores hapersonales ~~surgido~~o ~~incluso~~servidores ~~una~~pequeños. ~~disciplina~~Este ~~conocida como~~ ~~ingeniería~~tipo de ~~prompting~~,modelos ~~que~~permite ~~estudia~~experimentar ~~cómo~~con ~~formular preguntas o instrucciones~~IA de forma ~~eficaz.~~

local

Másaccesible, alláalgo especialmente interesante en entornos educativos o de la conversación: herramientas y aplicaciones

investigación.

~~Los~~En conjunto, el ecosistema actual de modelos de lenguaje noes muy diverso. Existen modelos abiertos y propietarios, servicios online y sistemas que funcionan localmente, así como versiones gigantes y versiones ligeras. Esta diversidad es precisamente una de las razones por las que la inteligencia artificial se ~~utilizan~~está ~~solo~~extendiendo ~~para~~tan ~~conversar.~~rápidamente: ~~También~~cada ~~pueden~~organización ~~integrarse~~puede enelegir ~~múltiples~~el ~~aplicaciones.~~tipo de modelo que mejor se adapte a sus necesidades, recursos y nivel de control sobre los datos.

~~Por ejemplo:~~

~~análisis de documentos~~

~~generación de informes~~

~~asistencia en programación~~

~~sistemas de tutoría educativa~~

~~clasificación de textos~~

~~automatización de tareas administrativas~~

~~En muchos casos se combinan con bases de datos o documentos mediante técnicas como~~ ~~RAG (Retrieval Augmented Generation)~~~~, que permite que el modelo responda utilizando información específica de una organización.~~

El siguiente paso:paso en los modelos: los agentes de IA

inteligencia artificial

En los últimos años haestá ~~empezado~~empezando a aparecer un nuevo ~~concepto:~~concepto que muchos investigadores consideran el siguiente paso en la evolución de la inteligencia artificial: los agentes de IA.

Hasta ahora, la mayoría de aplicaciones basadas en modelos de lenguaje funcionan de forma relativamente simple. El usuario hace una pregunta, el modelo analiza el texto y genera una respuesta. Es un proceso muy potente, pero también bastante limitado: el sistema responde, pero no actúa.

Los agentes de inteligencia artificial amplían esa idea. Un agente puede entender una tarea, dividirla en pasos y ejecutar acciones para completarla. En otras palabras, no se limita a generar texto, sino que planifica, toma decisiones y utiliza herramientas externas para alcanzar un objetivo.

~~Mientras~~Esto significa que un ~~modelo de lenguaje responde a una pregunta concreta, un~~ agente ~~puede:~~puede hacer cosas como:

planificar tareas complejas

consultar información en diferentes fuentes

utilizar herramientas externas (APIs, bases de datos, buscadores)
ejecutar acciones

~~consultar herramientas externas~~

~~interactuar con diferentes~~en sistemas digitales

Por ejemplo, imaginemos una tarea como elaborar un informe sobre el cambio climático. Un modelo de lenguaje clásico podría explicar el tema si se le pregunta. En cambio, un agente podría:

buscar información en internet
seleccionar los documentos relevantes

analizar los ~~resultados~~datos encontrados
generar un informe estructurado
enviarlo automáticamente por correo electrónico

Todo ~~ello~~este deproceso ~~forma~~podría ~~automática.~~realizarse con mínima intervención humana.

El nuevo paradigma: la orquestación de agentes

~~Este~~A ~~enfoque está dando lugar a lo~~medida que ~~algunos~~estos ~~investigadores~~sistemas ~~llaman~~evolucionan, ha surgido una idea todavía más interesante: la orquestación de agentes.

En lugar de un único ~~modelo~~sistema que lointenta ~~haga~~hacerlo todo, se utilizan varios agentes especializados que colaboran entre sí., ~~Cada~~cada uno ~~puede tener~~con una función ~~concreta:~~concreta. Este enfoque consiste en coordinar diferentes agentes dentro de un mismo sistema para alcanzar un objetivo común.

Por ejemplo, en un sistema más complejo podrían intervenir:

un agente que busca información
otro que analiza datos
otro que genera informes
otro que toma decisiones o ejecuta acciones

~~Este~~De alguna forma, este modelo recuerda enal ~~cierto~~funcionamiento ~~modo a~~de un equipo humano de trabajo ~~humano~~, donde ~~diferentes~~cada ~~especialistas~~especialista ~~colaboran~~aporta una capacidad concreta para resolver un problema ~~complejo.~~más grande.

Un cambio profundo en la interacciónforma de interactuar con la tecnología

~~Los~~Este ~~modelos~~avance detambién ~~lenguaje~~está ~~están transformando~~cambiando la ~~forma~~manera en que interactuamos con los ordenadores.

Durante décadas, ~~para~~ utilizar un sistema informático ~~era necesario~~implicaba aprender comandos, ~~menús~~interfaces complejas o ~~interfaces~~programas ~~complejas.~~especializados.

~~Ahora,~~

Con los modelos de lenguaje y los agentes, cada vez más herramientas permiten interactuar simplemente mediante lenguaje natural. Además, los agentes pueden actuar de forma más autónoma, realizando tareas completas en lugar de limitarse a responder preguntas.

~~Para el mundo educativo esto~~Esto abre posibilidades ~~interesantes:~~interesantes en muchos ámbitos, incluido el educativo. Por ejemplo, podrían aparecer:

asistentes ~~para~~que elayudan ~~aprendizaje~~a preparar materiales didácticos

sistemas que analizan grandes cantidades de información académica
herramientas de ~~análisis~~tutoría depersonalizada ~~información~~para el alumnado
~~sistemas~~plataformas que automatizan tareas administrativas o de ~~tutoría personalizada~~

~~apoyo en la creación de materiales didácticos~~evaluación

Comprender la tecnología para usarla con criterio

~~Comprender~~Aunque estas tecnologías son muy potentes, también es importante entender sus capacidades y sus limitaciones. Los agentes no sustituyen el juicio humano ni el pensamiento crítico. Son herramientas que pueden ayudar a automatizar tareas y gestionar información, pero su uso requiere supervisión y criterio.

En el ámbito educativo, comprender cómo funcionan ~~estos~~los modelos ~~—sus~~de ~~capacidades~~lenguaje y ~~también~~los ~~sus limitaciones—~~agentes es unespecialmente ~~paso~~importante. ~~importante~~No ~~para~~solo permite utilizarlos de forma ~~crítica~~más eficaz, sino también enseñar a los estudiantes a entender críticamente las tecnologías que están transformando nuestra forma de trabajar y ~~responsable.~~aprender.