Skip to main content

2.3 Modelos de Lenguaje y Procesamiento del Lenguaje Natural

Los modelos de lenguaje: cómo las máquinas aprenden a entender y generar texto

En los últimos años, uno de los avances más visibles dentro del campo de la inteligencia artificial ha sido el desarrollo de los modelos de lenguaje. Estas herramientas sonSon las tecnologías que permiten que hoy podamos conversar con sistemas de IA, pedirles que redacten textos, expliquen conceptos, generen código o resuman documentos.

Aunque desdeDesde fuera puedapuede parecer que estos sistemas “piensan”piensan o “razonan”razonan, pero en realidad su funcionamiento se basa en una idea relativamentebastante sencilla:simple: aprender patrones del lenguaje a partir de enormes cantidades de texto. Los modelos analizan millones o miles de millones de frases y aprenden qué palabras suelen aparecer juntas y en qué contexto.

Para entenderentenderlo de forma sencilla, podemos imaginarlo como cuando una persona ha leído miles de libros y conversaciones: poco a poco empieza a reconocer cómo se construyen las frases, cómo funcionanse relacionan los conceptos y por qué hantipo evolucionadode tanrespuestas rápidosuelen aparecer en loscada últimos años, conviene ver primero su origen.situación.


Entrenamiento

Cómo dese entrena un modelo

El desarrollo reciente de los modelos de lenguaje ha hecho posible crear sistemas capaces de mantener conversaciones complejas, explicar conceptos científicos o resolver problemas matemáticos. Sin embargo, detrás

Detrás de estos sistemas existe un proceso técnico complejocomplejo. que implica entrenarLos modelos neuronales con grandes cantidades de datos.

Cuando se habla de “crear o entrenar tu propio chat”, en realidad se hace referencia a adaptar o construir un modelo de lenguaje quemodernos puedase responderentrenan preguntasutilizando dentroredes deneuronales unmuy dominio determinado. Este proceso puede realizarse de diferentes formas ygrandes con distintos niveles de complejidad, desde entrenar un modelo desde cero hasta adaptar uno ya existente mediante técnicas como el fine-tuning.

Comprender este proceso, aunque sea de forma conceptual, resulta útil para entender cómo funcionan los sistemas de inteligencia artificial actuales.


Qué significa entrenar un modelo de lenguaje

Entrenar un modelo de lenguaje consiste en ajustar millones o incluso miles de millones de parámetrosparámetros. de una red neuronal para que aprenda patrones del lenguaje humano.

Durante el entrenamiento, el modelo aprende auna tarea muy concreta: predecir la siguiente palabra (o tokentoken) endentro de una secuenciafrase.

de texto.

Por ejemplo, si el modelo recibe launa frase:frase como:

“La fotosíntesis es el proceso mediante el cual las plantas…”

el modelosistema aprendecalcula quequé palabras comotienen más probabilidad de aparecer a continuación: producen, generan o, transforman, tienen una alta probabilidad de aparecer a continuación.etc.

Al repetir este proceso millones de veces con grandes conjuntos de datos,texto, el modelo aprende:acaba aprendiendo:

  • gramática y estructura del lenguaje

  • relaciones entre conceptos

  • patrones comunes de razonamiento

  • conocimiento general delpresente mundo.en los datos

Cuando el entrenamiento finaliza,termina, el modelo puede generar texto nuevo basándose enutilizando esos patrones aprendidos.


Etapas

Las etapas para entrenarconstruir un chatsistema basado en IA

conversacional

El desarrollo de un sistema conversacional basado en modelos de lenguajeIA suele implicar varias etapas.fases.

1. Recopilación delde dataset
datos

El primer paso consiste en reunir un gran conjunto de datostextos que sirva para entrenar el modelo. Estos datos suelen ser grandes coleccionesproceder de textomuchas procedentesfuentes dedistintas, diferentes fuentes:como:

  • libros

  • artículos científicos

  • páginas web

  • documentosdocumentación técnicostécnica

  • conversaciones.conversaciones

En modelos orientados a un ámbito específico —por ejemplo, educación científica,científica— los datos podríanpueden incluir:

incluir
  • explicaciones de biología

    biología,
  • problemas resueltos de física

  • o
  • ejercicios de matemáticasmatemáticas.

  • textos de química.

La calidad delde datasetlos datos es fundamental,crucial, ya queporque el modelo aprenderáaprende directamente de esos ejemplos.ejemplos.


2. PreprocesamientoPreparación dedel los datos
texto

Antes de entrenar el modelo, los textosdatos deben prepararseprepararse. medianteEsto variosimplica pasos.

limpiar

Entrelos ellos:

textos,
  • limpieza del texto

  • eliminación deeliminar duplicados y normalizar formatos.

  • normalización de formato

  • filtrado de contenido irrelevante.

Después se realiza un proceso llamado tokenización, en el que el texto se divide en unidades más pequeñas llamadas tokens.

LosUn tokenstoken puedenpuede ser:

ser
    una
  • palabra,

    palabras

  • partesparte de palabrasuna palabra o incluso un símbolo.

  • caracteres.

Por ejemplo, launa palabrafrase biologíacomo:

podría
dividirse

“La inteligencia artificial aprende rápido”

se transforma en variosuna secuencia de tokens dependiendoque delel modelo.modelo puede procesar numéricamente.


3. Entrenamiento del modelo

Una vez preparados los datos, comienza el procesoentrenamiento. de entrenamiento.

El modelo recibe una secuencia de tokens y debe predecir cuál será el siguiente token.. Si lase predicción es incorrecta,equivoca, el algoritmo ajusta los parámetros de la red neuronal para mejorar ella resultado.predicción.

Este proceso se repite millones de veces.

Con el tiempo, el modelo aprende patrones cada vez más complejos como:del lenguaje.

  • relaciones entre conceptos científicos

  • estructuras gramaticales

  • formas de resolver problemas.

Los modelos actuales suelen basarse en la arquitectura Transformer, que utiliza mecanismos de atención para analizar ellas contextorelaciones de lasentre palabras dentro de una frase.frase y comprender mejor el contexto.


4. Ajuste para conversación

Un modelo entrenado con texto general no necesariamente sabe mantener conversaciones.una conversación. Por elloeso suele realizarse una fase adicional parade adaptarloajuste alen diálogo.la que el sistema aprende a responder preguntas o a interactuar con usuarios.

EstoPara puedeello hacersese mediante:

utilizan
  • datasets de preguntas y respuestas

  • ejemplos de conversación

    diálogo
  • o
  • técnicaspares de alineamiento.

Por ejemplo, el modelo puede entrenarse con parespregunta–respuesta, como:

Pregunta:


¿Qué es la ley de Ohm?

Respuesta:


La ley de Ohm establece que la intensidad de corriente que circula por un conductor es proporcional al voltaje aplicado…

Este tipo de ejemplosproceso enseña al modelo a respondergenerar preguntasrespuestas demás formaestructuradas estructurada.y útiles.


5. Evaluación y mejora

DespuésUna delvez entrenamientoentrenado, el modelo se evalúasomete ela comportamientodiferentes delpruebas modelo.

para

Se compruebacomprobar si:

  • responde correctamente a preguntas

  • mantiene coherencia en conversaciones

  • evita generar información incorrecta.incorrecta

En función de los resultados, se pueden realizarserealizar nuevasnuevos iteracionesajustes o mejoras en el entrenamiento.

NLP, LLM y el auge de entrenamientola IA generativa

El Procesamiento del Lenguaje Natural (NLP) es el área de la inteligencia artificial que intenta que las máquinas puedan comprender, analizar y generar lenguaje humano. Durante muchos años, las técnicas de NLP se basaban en reglas lingüísticas o ajustesmodelos adicionales.estadísticos relativamente simples. Estos métodos permitían realizar tareas concretas, como clasificar textos o detectar palabras clave, pero tenían limitaciones importantes cuando se trataba de comprender el contexto completo de una frase o manejar conversaciones complejas.


El

Entrenarpanorama uncambió modeloradicalmente desde cero vs adaptar un modelo existente

Encon la prácticallegada existendel dosDeep formasLearning principalesy, especialmente, con la arquitectura transformer, que permitió construir modelos capaces de crearanalizar ungrandes chatcantidades propio.

de

Entrenartexto un modelo desde cero

Consisteteniendo en construircuenta el modelocontexto ycompleto entrenarlode completamentelas palabras. A partir de estos avances surgieron los Large Language Models (LLM), modelos de lenguaje entrenados con enormes colecciones de texto que pueden realizar múltiples tareas lingüísticas con un datasetúnico propio.sistema.

EstoGracias requiere:a estos modelos, muchas tareas clásicas de NLP pueden abordarse hoy de forma más eficiente y flexible. En lugar de construir un sistema diferente para cada tarea —por ejemplo, uno para traducir textos y otro para resumir documentos— los LLM pueden resolver muchas de estas tareas simplemente mediante instrucciones o ejemplos.

Entre las principales tareas del NLP encontramos varias que hoy se utilizan de forma cotidiana en múltiples aplicaciones tecnológicas:

  • grandesTraducción cantidadesautomática, deque datospermite traducir textos entre diferentes idiomas.

  • infraestructuraAnálisis de computaciónsentimiento, avanzadautilizado para detectar opiniones positivas o negativas en redes sociales o reseñas de productos.

  • Clasificación de textos, por ejemplo para detectar spam o categorizar documentos.

  • Reconocimiento de entidades, que identifica nombres de personas, lugares o organizaciones dentro de un texto.

  • Resumen automático de documentos, útil para procesar grandes cantidades de información.

  • Sistemas de pregunta-respuesta, capaces de responder preguntas sobre un texto o una base de conocimiento.

  • Conversación automática, como la que se produce en chatbots y asistentes virtuales.

A partir de estas capacidades del NLP han surgido muchas aplicaciones de IA generativa, donde los modelos no solo analizan información, sino que también crean contenido nuevo. Los modelos actuales pueden generar textos completos, redactar artículos, producir código de programación, crear resúmenes o mantener conversaciones relativamente complejas con los usuarios.

Esto ha dado lugar a una gran variedad de herramientas basadas en modelos de lenguaje: asistentes conversacionales, sistemas de apoyo a la programación, motores de búsqueda inteligentes o plataformas educativas capaces de generar explicaciones y ejercicios. Además, estos modelos también se utilizan para generar otros tipos de contenido, como imágenes, audio o vídeo, combinando el lenguaje con otros tipos de datos.

En definitiva, el NLP ha pasado de ser un campo especializado dentro de la inteligencia artificial a convertirse en uno de los motores principales de la IA actual. Los avances en Deep Learning y en los modelos de lenguaje han permitido que las máquinas interactúen con el lenguaje humano de una forma mucho más natural, lo que explica el rápido crecimiento de aplicaciones basadas en chatbots, asistentes inteligentes y sistemas generativos.

 

Ampliando los modelos

En la práctica, cuando se quiere construir un sistema conversacional o un chatbot basado en inteligencia artificial, existen dos caminos principales. El primero sería entrenar un modelo completamente desde cero, lo que implica construir la red neuronal y alimentarla con enormes cantidades de datos para que aprenda el lenguaje. Este proceso requiere infraestructuras muy potentes, grandes centros de datos y semanas o meses de entrenamiento.

entrenamiento, por lo

Porque esta razón, suele realizarsenormalmente solo enestá al alcance de grandes empresas tecnológicas o centros de investigación.


Por

Adaptaresta razón, lo más habitual hoy en día no es empezar desde cero, sino partir de un modelo existente

ya entrenado y adaptarlo a una tarea concreta. Los grandes modelos de lenguaje ya poseen un conocimiento general del lenguaje porque han sido entrenados con enormes colecciones de texto. A partir de ahí se pueden ajustar o especializar mediante distintas técnicas.

EsUna de las más conocidas es el fine-tuning, que consiste en volver a entrenar el modelo con un conjunto de datos más pequeño y específico para que aprenda el vocabulario, el estilo o los patrones de un determinado dominio. Por ejemplo, un modelo general puede adaptarse para responder preguntas médicas, jurídicas o educativas entrenándolo con ejemplos propios de ese ámbito. En este proceso se ajustan los parámetros internos del modelo para que responda mejor en ese contexto concreto.

Otra técnica muy utilizada es RAG (Retrieval-Augmented Generation), que en lugar de modificar el modelo permite conectarlo a fuentes de información externas, como bases de datos o colecciones de documentos. Cuando el usuario hace una pregunta, el sistema primero busca información relevante en esos documentos y luego utiliza el modelo de lenguaje para generar la opciónrespuesta máscombinando habitual.su conocimiento previo con esos datos recuperados. De esta forma el modelo puede trabajar con información actualizada o especializada sin necesidad de volver a entrenarlo.

También se utilizan estrategias de prompting avanzado, que consisten en diseñar cuidadosamente las instrucciones o ejemplos que se proporcionan al modelo para guiar su comportamiento. En muchos casos, una buena forma de plantear la pregunta o proporcionar contexto adicional puede mejorar notablemente la calidad de las respuestas.

En estedefinitiva, casolos modelos de lenguaje actuales no funcionan como una mente humana que razona de forma consciente. Su comportamiento se utilizabasa unen modeloaprender preentrenadopatrones estadísticos del lenguaje a partir de grandes cantidades de datos y utilizar esos patrones para generar nuevas frases. Sin embargo, cuando estos modelos se entrenan a gran escala y se adaptacombinan mediantecon técnicas como:como el fine-tuning o el RAG, pueden producir respuestas sorprendentemente coherentes y útiles.

    Para

  • fine-tuning

  • RAG

  • prompting avanzado.

Esto permite crear chats especializadosvisualizarlo con menosun recursos.

ejemplo
educativo,

Ejemplo conceptual en educación científica

Imaginemosimaginemos que queremos entrenarconstruir un modelo orientado a resolver problemas de física de bachillerato.

bachillerato.

El datasetsistema podría incluirentrenarse con miles de ejemplos como:donde aparece una pregunta y su resolución paso a paso. Por ejemplo:

Pregunta:

Un objeto de 5 kg acelera a 2 m/s². Calcula la fuerza aplicada.


El
modelo

Respuesta:

aprendería
que

Aplicamosdebe aplicar la segunda ley de Newton:
Newton, usar la fórmula F = m · a
F
=y 5calcular ×el 2
F = 10 N.resultado.

Del

mismo modo, podría entrenarse con ejemplos de biología —como preguntas sobre la función del ADN— o de química, como ajustar ecuaciones químicas. Con suficientes ejemplos, el modelo aprenderíaacaba aprendiendo los patrones de explicación y resolución de problemas que aparecen en esos campos.

Esto explica por qué hoy es posible crear asistentes especializados en educación, ciencia o cualquier otro ámbito: no porque la máquina “entienda” el patrónconocimiento decomo resolución.

lo
haría

Ejemplouna enpersona, biología

sino

Datasetporque deha ejemplo:

aprendido

Pregunta:

cómo
suelen

¿Cuál es la función del ADN?

Respuesta:

El ADN contiene la información genética que permite aformularse las células fabricar proteínas y transmitir características hereditarias.


Ejemplo en química

Pregunta:

Ajusta la ecuación: H₂ + O₂ → H₂O.

Respuesta:

La ecuación ajustada es: 2H₂ + O₂ → 2H₂O.


Recursos para comprender cómo se entrenan los modelos

Uno de los investigadores que mejor ha explicado públicamente estos procesos es Andrej Karpathy, antiguo investigador de OpenAI y profesor en Stanford University.

Su trabajo divulgativo explica con claridad cómo funcionan los modelos de lenguajepreguntas y cómo puedensuelen entrenarse.

construirse

Unlas vídeorespuestas muy recomendable es:

En este vídeo se muestra paso a paso cómo construir un pequeño modelodentro de lenguajeesos similar a GPT, explicando:dominios.

  • tokenización

  • arquitectura Transformer

  • entrenamiento del modelo

  • generación de texto.

También es muy interesante su vídeo:

En él se ofrece una explicación clara de cómo funcionan los LLM modernos.


Conclusión

Entrenar un chat basado en modelos de lenguaje es un proceso que combina grandes conjuntos de datos, redes neuronales profundas y algoritmos de aprendizaje automático. Aunque los modelos actuales requieren infraestructuras complejas para su entrenamiento completo, comprender su funcionamiento ayuda a entender cómo la inteligencia artificial es capaz de generar texto, responder preguntas y mantener conversaciones.

Desde un punto de vista conceptual, el entrenamiento de un chat implica varias etapas: recopilación de datos, preprocesamiento, entrenamiento del modelo, ajuste para conversación y evaluación. Estas fases permiten transformar grandes colecciones de texto en sistemas capaces de interactuar con las personas.

Hoy en día, la mayoría de aplicaciones no entrenan modelos desde cero, sino que adaptan modelos existentes mediante técnicas como el fine-tuning o el uso de datos externos. Sin embargo, el principio fundamental sigue siendo el mismo: aprender patrones del lenguaje a partir de grandes cantidades de ejemplos.

Comprender este proceso permite interpretar mejor las capacidades y limitaciones de los sistemas de inteligencia artificial que utilizamos actualmente y abre la puerta a desarrollar herramientas cada vez más especializadas en campos como la educación científica.

El origen: enseñar a las máquinas a predecir palabras

Los modelos de lenguaje nacen de una pregunta aparentemente simple:

¿Puede una máquina aprender a predecir cuál será la siguiente palabra de una frase?

Por ejemplo, en una frase como:

“Hoy hace mucho ___”

La mayoría de las personas completaría la frase con palabras como calor, frío o viento. Nuestro cerebro aprende estas probabilidades porque ha estado expuesto al lenguaje durante años.

Los modelos de lenguaje hacen algo parecido. Durante su entrenamiento analizan millones o incluso billones de palabras procedentes de libros, páginas web, artículos o conversaciones.

Su objetivo principal es aprender a responder a una pregunta muy concreta:

¿Qué palabra es más probable que venga después en una secuencia de texto?

A partir de esta tarea aparentemente simple, los modelos terminan aprendiendo una enorme cantidad de conocimiento implícito sobre:

  • gramática

  • estilo

  • contexto

  • relaciones entre conceptos

  • estructuras narrativas

Este aprendizaje estadístico del lenguaje es lo que permite que puedan generar textos coherentes.


La evolución de los modelos de lenguaje

Durante muchos años los modelos de lenguaje eran relativamente simples. UtilizabanFuncionaban con métodos estadísticos que analizaban secuencias cortas de palabras.

palabras

para calcular probabilidades. Por ejemplo, los sistemas podían calcularestimar probabilidadesque como:

  • después de la expresión “buenos” es muy probable que aparezca “días”, o que después de “por favor” suele venir días”

    gracias”.
  • Estos
  • sistemas

    despuéseran útiles para tareas básicas como corrección automática o predicción de “porpalabras, favor” suele venir “gracias”

Sin embargo, estos modelospero tenían una limitación importante: solo podían manejar contextos muy pequeños. y apenas entendían el significado global de una frase.

El gran salto llegó con el desarrollo del Deep Learning yaplicado especialmenteal lenguaje y, sobre todo, con la aparición en 2017 de la arquitectura Transformer, presentada en 2017el famoso artículo Attention is All You Need. Esta arquitectura introdujo el mecanismo de atención.

Los Transformers permitieron, que permite a los modelos analizaran frases completas, párrafos e incluso documentos enteros, entendiendo lasanalizar relaciones entre palabras dentro de una frase completa e incluso entre frases muy distantesseparadas dentro de un texto. Gracias a esta innovación, los sistemas podían captar mejor el contexto y procesar el lenguaje de forma mucho más eficiente que los modelos anteriores basados en redes recurrentes.

A partir de ese momento surgieroncomenzaron a desarrollarse los llamados Large Language Models (LLM), o modelos de lenguaje de gran tamañotamaño. Estos modelos utilizan redes neuronales profundas entrenadas con enormes cantidades de texto procedente de libros, páginas web, artículos científicos o conversaciones. Su objetivo es aprender los patrones del lenguaje para poder comprender y generar texto coherente.


Algunos

Uno de los hitos importantes fue el lanzamiento de la familia GPT de OpenAI. El primer modelo, GPT-1, apareció en 2018 con unos 117 millones de parámetros. Poco después llegó GPT-2, que ya alcanzaba alrededor de 1.500 millones de parámetros. En 2020 se presentó GPT-3, con aproximadamente 175.000 millones de parámetros, lo que permitió generar textos sorprendentemente coherentes y realizar múltiples tareas lingüísticas con un mismo modelo.

En paralelo surgieron otros modelos importantes. Por ejemplo, BERT, desarrollado por Google, se centró en mejorar la comprensión del lenguaje utilizando representaciones bidireccionales del contexto. Este modelo se convirtió en uno de los más importantesinfluyentes actualmente

en tareas de NLP como clasificación de textos o sistemas de pregunta-respuesta.

Con el tiempo, la investigación en modelos de lenguaje se aceleró enormemente. En la actualidad existen numerosos modelos de lenguajeLLM desarrollados tanto por grandes empresas tecnológicas ycomo por comunidades de investigación.investigación abiertas.

Entre los más conocidos podemos mencionar:

GPT (OpenAI)
Es uno de los modelos más populares. La familia GPT (Generative Pre-trained Transformer) haes sidoprobablemente responsablela demás granpopular. parteEstos delmodelos han impulsado el auge reciente de los asistentes conversacionales.conversacionales y de muchas herramientas de IA generativa.

Gemini (Google)
ModeloEs desarrolladola evolución de los modelos de lenguaje desarrollados por GoogleGoogle. queEstá integradiseñado capacidadespara trabajar de lenguaje,forma razonamientomultimodal, combinando texto, imágenes y multimodalidadotros (texto,tipos imágenes,de etc.).información.

Claude (Anthropic)
UnEste modelo se ha diseñado conponiendo especial atenciónénfasis aen la seguridad y alel alineamiento con valores humanos.humanos, intentando reducir riesgos asociados al uso de la inteligencia artificial.

Llama (Meta)
Una familiade las familias de modelos muymás influyenteinfluyentes porqueen variasel ecosistema open source. Varias versiones han sido liberadas comopúblicamente, openlo source,que permitiendoha permitido a investigadores y desarrolladores utilizarloscrear ynuevas adaptarlos.aplicaciones basadas en ellos.

Mistral
UnoUn proyecto europeo que ha ganado relevancia por desarrollar modelos relativamente eficientes, capaces de losofrecer proyectosbuen europeos más interesantes en el campo de los modelos abiertos, con modelos eficientes que pueden ejecutarserendimiento incluso en equiposhardware relativamentemás modestos.modesto.

Qwen (Alibaba)
Una familia de modelos muyque competitivaha demostrado un rendimiento competitivo en variosmúltiples idiomas y que también cuenta con versiones accesibles para uso local.

EstosAunque estos modelos comparten una misma base tecnológica común —los Transformers—transformers peropueden difierendiferir mucho en aspectosdistintos aspectos: el tamaño del modelo, los datos utilizados para entrenarlo, las optimizaciones internas o las licencias de uso.

En conjunto, la evolución de los modelos de lenguaje ha sido extraordinariamente rápida. En apenas una década se ha pasado de sistemas capaces de completar frases simples a modelos que pueden mantener conversaciones complejas, explicar conceptos científicos, generar código o analizar grandes cantidades de información. Esta evolución ha sido uno de los factores clave que han impulsado el desarrollo de la IA generativa moderna y la proliferación de asistentes inteligentes en múltiples ámbitos.

Parametrización de modelos

Para comprender cómo funcionan realmente los modelos de lenguaje actuales, conviene conocer algunos conceptos fundamentales. Estos conceptos explican cómo procesan el texto, cómo se entrenan, qué recursos necesitan y por qué algunos modelos son enormes mientras otros pueden ejecutarse en un ordenador personal.


1. Tokens: las unidades básicas del lenguaje

Los modelos de lenguaje no trabajan directamente con palabras completas como hacemos los humanos. En su lugar, el texto se divide en pequeñas unidades llamadas tokens.

Un token puede ser:

  • una palabra completa

  • parte de una palabra

  • un número

  • un signo de puntuación

Por ejemplo, una palabra larga como “computadora” puede dividirse en varios tokens dependiendo del sistema de tokenización utilizado.

Los tokens son importantes por varias razones:

  • determinan cuánta información puede procesar el modelo

  • influyen en el coste de uso de muchos servicios de IA

  • marcan la longitud máxima de una conversación

Los modelos generan texto prediciendo el siguiente token más probable basándose en los tokens anteriores.


2. Contexto: la memoria del modelo

El contexto (o context window) es la cantidad de texto que el modelo puede analizar al mismo tiempo. En otras palabras, es la cantidad de tokens que el modelo puede “recordar” durante una conversación o una tarea.

Cuanto mayor es el contexto, más información puede utilizar el modelo para responder.

Esto es clave en tareas como:

  • tamañoanalizar documentos largos

  • datosresumir de entrenamientoinformes

  • optimizaciónrevisar código

  • licenciasmantener deconversaciones usocomplejas

Los modelos antiguos tenían contextos muy pequeños (unos cientos o miles de tokens). Hoy existen modelos capaces de manejar cientos de miles o incluso millones de tokens, lo que permite analizar documentos muy extensos o incluso libros completos.

Sin embargo, aumentar el contexto también aumenta el coste computacional, porque el cálculo de atención en los transformers crece rápidamente con la longitud del texto.


Modelos

3. Prompt: la instrucción que guía al modelo

El prompt es la instrucción o pregunta que el usuario proporciona al modelo.

Puede ser algo simple:

“Explica qué es la fotosíntesis”

o algo más elaborado:

“Explica la fotosíntesis para alumnos de 1º de ESO usando ejemplos sencillos”.

La forma en que se formula el prompt influye mucho en la calidad de la respuesta. Por eso en los últimos años ha surgido una disciplina conocida como ingeniería de prompting, que estudia cómo diseñar instrucciones eficaces para los modelos.


4. Cómo se entrenan los modelos de lenguaje

Los LLM se entrenan utilizando redes neuronales profundas basadas en transformers y enormes colecciones de texto.

Durante el entrenamiento el modelo aprende a predecir el siguiente token en una secuencia. Por ejemplo:

“La fotosíntesis es el proceso mediante el cual las plantas…”

El modelo aprende que las siguientes palabras más probables pueden ser:

  • producen

  • generan

  • transforman

Este proceso se repite billones de veces con grandes conjuntos de datos.

Los datasets utilizados suelen incluir:

  • páginas web

  • libros

  • artículos científicos

  • código fuente

  • documentos técnicos

Por ejemplo, algunos modelos se han entrenado con más de un billón de tokens de texto procedentes de múltiples fuentes públicas.


5. Tamaño del modelo: los parámetros

Otro concepto clave es el número de parámetros.

Los parámetros son los valores internos que la red neuronal ajusta durante el entrenamiento para aprender patrones.

Algunos ejemplos aproximados:

  • GPT-1 → 117 millones de parámetros

  • GPT-2 → 1.500 millones

  • GPT-3 → 175.000 millones

El aumento del número de parámetros permitió mejoras importantes en la capacidad de los modelos para comprender y generar texto.

Sin embargo, los modelos más grandes requieren enormes recursos de computación.


6. Coste de entrenamiento y recursos necesarios

Entrenar modelos de lenguaje es extremadamente costoso.

Por ejemplo:

  • entrenar un modelo de 13 mil millones de parámetros puede costar alrededor de 1 millón de dólares y requerir miles de GPUs funcionando durante semanas.

Entrenar modelos gigantes como GPT-3 puede costar millones de dólares en infraestructura y energía.

Por esta razón, la mayoría de organizaciones no entrenan modelos desde cero, sino que adaptan modelos ya existentes mediante técnicas como:

  • fine tuning

  • LoRA

  • RAG

  • prompt engineering

Estas técnicas permiten especializar modelos sin repetir todo el entrenamiento.

7. Tabla resumen de algunos modelos populares
ModeloOrganizaciónTipoParámetros aproximadosCaracterísticas
GPT-4 / GPT-4oOpenAIPropietarioNo públicoMuy potente, multimodal
GeminiGooglePropietarioNo públicoMultimodal, gran contexto
ClaudeAnthropicPropietarioNo públicoContexto muy grande
Llama 3MetaAbiertohasta ~70BMuy usado en investigación
MistralMistral AIAbierto7B–MixtralMuy eficiente
QwenAlibabaAbierto / mixto7B–72BMultilingüe
FalconTIIAbiertohasta 180BMuy popular en open source
GPT-JEleutherAIAbierto6BUno de los primeros LLM abiertos

 

Tipos de modelos de lenguaje: propietarios, abiertos, online y locales

Hoy en día los modelos offlinede lenguaje pueden clasificarse de varias formas según cómo se distribuyen, cómo se ejecutan y qué grado de acceso tenemos a ellos. Comprender estas diferencias es importante porque determina cómo podemos utilizarlos, qué recursos necesitamos y qué control tenemos sobre los datos.

OtraUna primera distinción importante es entre cómomodelos sepropietarios utilizan estosy modelos abiertos.

Modelos

Los accesiblesmodelos mediantepropietarios API

son

Muchasdesarrollados por grandes empresas ofrecentecnológicas que no publican completamente su arquitectura, sus modelosdatos de entrenamiento o sus pesos internos. El acceso suele realizarse a través de plataformas online o APIs. Ejemplos conocidos son los modelos APIs (interfacesGPT de programación)OpenAI, Gemini de Google o Claude de Anthropic. EstoEstos significamodelos suelen ofrecer un rendimiento muy alto porque están entrenados con enormes infraestructuras y grandes volúmenes de datos. Sin embargo, su uso depende de las condiciones de la empresa que los desarrolla y normalmente implica acceso a través de servicios en la nube.

Por otro lado, existen los modelos abiertos u open source, en los que gran parte del modelo se publica para que investigadores y desarrolladores puedenpuedan enviarutilizarlos, estudiarlos o adaptarlos. Ejemplos conocidos son Llama (Meta), Mistral, Falcon o algunas versiones de Qwen. Estos modelos han impulsado mucho la investigación porque permiten experimentar, crear nuevas aplicaciones o ejecutar inteligencia artificial sin depender completamente de grandes plataformas tecnológicas.

Otra clasificación muy importante es la forma en la que se ejecutan los modelos: online o localmente.

Muchos modelos actuales se utilizan a través de APIs en la nube. En este modelo, el usuario o el desarrollador envía una consulta ala modeloun servidor a través de internet y recibirrecibe unala respuesta.

respuesta

del modelo. Este enfoque tiene varias ventajas:

  • no requiere disponer de hardware potente

    potente,
  • permite
  • acceso inmediatoacceder a modelos muy grandes

  • y
  • las

    actualizacionesempresas constantes

    pueden
  • actualizar
continuamente

los sistemas. Sin embargo, también presentaimplica algunas limitaciones:

  • dependencia de internet

    conexión
  • a
  • internet,

    posibles costes de uso

  • y
  • menor control sobre los datos enviadosenviados.

  • Frente

a
este

Modelosmodelo ejecutadoshan localmentesurgido (offline)

Enen los últimos años han surgido herramientas que permiten ejecutar modelos de lenguaje directamente en un ordenador local.

,

sin necesidad de conexión a internet. Plataformas como:

como
  • Ollama

    ,
  • LM Studio

  • o
  • text-generation-webui

permiten descargar modelos y utilizarlos sinde conexiónforma aprivada internet.en el propio equipo. Estas herramientas actúan como gestores que permiten instalar, ejecutar y probar modelos de lenguaje en local.

EsteEl enfoqueuso local tiene varias ventajas importantes:

importantes.
    Por
  • un

    mayorlado, mejora la privacidad

    ,
  • ya
  • que

    controllas totalconsultas sobrey los datos

    documentos
  • analizados
  • no

    posibilidadsalen dedel ordenador o del servidor interno. Además, permite integrar el modelomodelos en sistemas propios

  • o
en

entornos corporativos sin depender de servicios externos. Por ejemplo, una organización puede cargar documentos internos y crear un sistema de consulta privadobasado en IA sin queenviar esa información a servicios en la información salga de sus servidores.nube.


Finalmente,

Modelostambién open source y modelos propietarios

También es habitualpodemos distinguir entre modelos abiertosgrandes y modelos propietariosligeros.

Modelos propietarios

Son desarrollados por empresas que no publican completamente el modelo ni sus datos de entrenamiento.

Ejemplos conocidos:

  • GPT

  • Gemini

  • Claude

Suelen ofrecer alto rendimiento, pero su uso depende de las condiciones de la empresa que los desarrolla.


Modelos open source

En estos casos el modelo (o al menos gran parte de él) se publica para que investigadores y desarrolladores puedan utilizarlo, modificarlo o adaptarlo.

Ejemplos:

  • Llama

  • Mistral

  • Falcon

  • Qwen open

Este enfoque favorece la investigación, la transparencia y la innovación, ya que muchas personas pueden experimentar con los modelos.


Conceptos clave para entender cómo funcionan

Cuando se trabaja con modelos de lenguaje aparecen algunos conceptos fundamentales que conviene entender.

Tokens

Los modelos nomás trabajangrandes exactamentepueden contener palabras, sino con tokens.

Un token puede ser:

  • una palabra

  • parte de una palabra

  • un signo de puntuación

Por ejemplo, la palabra “computadora” podría dividirse en varios tokens.

El número de tokens determina en muchos casos:

  • el coste de uso en APIs

  • el tamaño de la conversación que puede procesar el modelo


Contexto

El contexto es la cantidad de texto que el modelo puede analizar a la vez.

En modelos antiguos el contexto era muy pequeño. Hoy existen modelos capaces de manejar cientos de miles de tokens,millones lode parámetros y requieren grandes infraestructuras para funcionar. Son los que permitesuelen analizar documentos completos, libros o conversaciones largas.

El contexto es clave para tareas como:

  • resumir documentos

  • analizar informes

  • mantener diálogos complejos


Prompt

El prompt es la instrucción que damos al modelo.

La formautilizarse en que se formula un prompt puede influir muchoservicios en la calidadnube. En cambio, han aparecido versiones más ligeras o compactas que sacrifican parte del rendimiento a cambio de lapoder respuesta.ejecutarse Poren esoordenadores hapersonales surgidoo inclusoservidores unapequeños. disciplinaEste conocida como ingenieríatipo de prompting,modelos quepermite estudiaexperimentar cómocon formular preguntas o instruccionesIA de forma eficaz.

local
y

Másaccesible, alláalgo especialmente interesante en entornos educativos o de la conversación: herramientas y aplicaciones

investigación.

LosEn conjunto, el ecosistema actual de modelos de lenguaje noes muy diverso. Existen modelos abiertos y propietarios, servicios online y sistemas que funcionan localmente, así como versiones gigantes y versiones ligeras. Esta diversidad es precisamente una de las razones por las que la inteligencia artificial se utilizanestá soloextendiendo paratan conversar.rápidamente: Tambiéncada puedenorganización integrarsepuede enelegir múltiplesel aplicaciones.tipo de modelo que mejor se adapte a sus necesidades, recursos y nivel de control sobre los datos.

Por ejemplo:

  • análisis de documentos

  • generación de informes

  • asistencia en programación

  • sistemas de tutoría educativa

  • clasificación de textos

  • automatización de tareas administrativas

En muchos casos se combinan con bases de datos o documentos mediante técnicas como RAG (Retrieval Augmented Generation), que permite que el modelo responda utilizando información específica de una organización.


El siguiente paso:paso en los modelos: los agentes de IA

inteligencia artificial

En los últimos años haestá empezadoempezando a aparecer un nuevo concepto:concepto que muchos investigadores consideran el siguiente paso en la evolución de la inteligencia artificial: los agentes de IA.

Hasta ahora, la mayoría de aplicaciones basadas en modelos de lenguaje funcionan de forma relativamente simple. El usuario hace una pregunta, el modelo analiza el texto y genera una respuesta. Es un proceso muy potente, pero también bastante limitado: el sistema responde, pero no actúa.

Los agentes de inteligencia artificial amplían esa idea. Un agente puede entender una tarea, dividirla en pasos y ejecutar acciones para completarla. En otras palabras, no se limita a generar texto, sino que planifica, toma decisiones y utiliza herramientas externas para alcanzar un objetivo.

MientrasEsto significa que un modelo de lenguaje responde a una pregunta concreta, un agente puede:puede hacer cosas como:

  • planificar tareas complejas

  • consultar información en diferentes fuentes

  • utilizar herramientas externas (APIs, bases de datos, buscadores)

  • ejecutar acciones

  • consultar herramientas externas

  • interactuar con diferentesen sistemas digitales

Por ejemplo, imaginemos una tarea como elaborar un informe sobre el cambio climático. Un modelo de lenguaje clásico podría explicar el tema si se le pregunta. En cambio, un agente podría:

  1. buscar información en internet

  2. seleccionar los documentos relevantes

  3. analizar los resultadosdatos encontrados

  4. generar un informe estructurado

  5. enviarlo automáticamente por correo electrónico

Todo elloeste deproceso formapodría automática.realizarse con mínima intervención humana.


El nuevo paradigma: la orquestación de agentes

EsteA enfoque está dando lugar a lomedida que algunosestos investigadoressistemas llamanevolucionan, ha surgido una idea todavía más interesante: la orquestación de agentes.

En lugar de un único modelosistema que lointenta hagahacerlo todo, se utilizan varios agentes especializados que colaboran entre sí., Cadacada uno puede tenercon una función concreta:concreta. Este enfoque consiste en coordinar diferentes agentes dentro de un mismo sistema para alcanzar un objetivo común.

Por ejemplo, en un sistema más complejo podrían intervenir:

  • un agente que busca información

  • otro que analiza datos

  • otro que genera informes

  • otro que toma decisiones o ejecuta acciones

EsteDe alguna forma, este modelo recuerda enal ciertofuncionamiento modo ade un equipo humano de trabajo humano, donde diferentescada especialistasespecialista colaboranaporta una capacidad concreta para resolver un problema complejo.más grande.


Un cambio profundo en la interacciónforma de interactuar con la tecnología

LosEste modelosavance detambién lenguajeestá están transformandocambiando la formamanera en que interactuamos con los ordenadores.

Durante décadas, para utilizar un sistema informático era necesarioimplicaba aprender comandos, menúsinterfaces complejas o interfacesprogramas complejas.especializados.

Ahora,

Con los modelos de lenguaje y los agentes, cada vez más herramientas permiten interactuar simplemente mediante lenguaje natural. Además, los agentes pueden actuar de forma más autónoma, realizando tareas completas en lugar de limitarse a responder preguntas.

Para el mundo educativo estoEsto abre posibilidades interesantes:interesantes en muchos ámbitos, incluido el educativo. Por ejemplo, podrían aparecer:

  • asistentes paraque elayudan aprendizajea preparar materiales didácticos

  • sistemas que analizan grandes cantidades de información académica

  • herramientas de análisistutoría depersonalizada informaciónpara el alumnado

  • sistemasplataformas que automatizan tareas administrativas o de tutoría personalizada

  • apoyo en la creación de materiales didácticosevaluación


Comprender la tecnología para usarla con criterio

ComprenderAunque estas tecnologías son muy potentes, también es importante entender sus capacidades y sus limitaciones. Los agentes no sustituyen el juicio humano ni el pensamiento crítico. Son herramientas que pueden ayudar a automatizar tareas y gestionar información, pero su uso requiere supervisión y criterio.

En el ámbito educativo, comprender cómo funcionan estoslos modelos —susde capacidadeslenguaje y tambiénlos sus limitaciones—agentes es unespecialmente pasoimportante. importanteNo parasolo permite utilizarlos de forma críticamás eficaz, sino también enseñar a los estudiantes a entender críticamente las tecnologías que están transformando nuestra forma de trabajar y responsable.aprender.