2.3 Modelos de Lenguaje y Procesamiento del Lenguaje Natural
Los modelos de lenguaje: cómo las máquinas aprenden a entender y generar texto
En los últimos años, uno de los avances más visibles dentro del campo de la inteligencia artificial ha sido el desarrollo de los modelos de lenguaje. Estas herramientas sonSon las tecnologías que permiten que hoy podamos conversar con sistemas de IA, pedirles que redacten textos, expliquen conceptos, generen código o resuman documentos.
Aunque desdeDesde fuera puedapuede parecer que estos sistemas “piensan”piensan o “razonan”razonan, pero en realidad su funcionamiento se basa en una idea relativamentebastante sencilla:simple: aprender patrones del lenguaje a partir de enormes cantidades de texto. Los modelos analizan millones o miles de millones de frases y aprenden qué palabras suelen aparecer juntas y en qué contexto.
Para entenderentenderlo de forma sencilla, podemos imaginarlo como cuando una persona ha leído miles de libros y conversaciones: poco a poco empieza a reconocer cómo se construyen las frases, cómo funcionanse relacionan los conceptos y por qué hantipo evolucionadode tanrespuestas rápidosuelen aparecer en loscada últimos años, conviene ver primero su origen.situación.
EntrenamientoCómo dese entrena un modelo
El desarrollo reciente de los modelos de lenguaje
ha hecho posible crear sistemas capaces de mantener conversaciones complejas, explicar conceptos científicos o resolver problemas matemáticos. Sin embargo, detrás
Detrás de estos sistemas existe un proceso técnico complejocomplejo. que implica entrenarLos modelos neuronales con grandes cantidades de datos.
Cuando se habla de “crear o entrenar tu propio chat”, en realidad se hace referencia a adaptar o construir un modelo de lenguaje quemodernos puedase responderentrenan preguntasutilizando dentroredes deneuronales unmuy dominio determinado. Este proceso puede realizarse de diferentes formas ygrandes con distintos niveles de complejidad, desde entrenar un modelo desde cero hasta adaptar uno ya existente mediante técnicas como el fine-tuning.
Comprender este proceso, aunque sea de forma conceptual, resulta útil para entender cómo funcionan los sistemas de inteligencia artificial actuales.
Qué significa entrenar un modelo de lenguaje
Entrenar un modelo de lenguaje consiste en ajustar millones o incluso miles de millones de parámetrosparámetros. de una red neuronal para que aprenda patrones del lenguaje humano.
Durante el entrenamiento, el modelo aprende auna tarea muy concreta: predecir la siguiente palabra (o tokentoken) endentro de una secuenciafrase.
Por ejemplo, si el modelo recibe launa frase:frase como:
“La fotosíntesis es el proceso mediante el cual las plantas…”
el modelosistema aprendecalcula quequé palabras comotienen más probabilidad de aparecer a continuación: producen, generan o, transforman, tienen una alta probabilidad de aparecer a continuación.etc.
Al repetir este proceso millones de veces con grandes conjuntos de datos,texto, el modelo aprende:acaba aprendiendo:
-
gramática y estructura del lenguaje
-
relaciones entre conceptos
-
patrones comunes de razonamiento
-
conocimiento general
delpresentemundo.en los datos
Cuando el entrenamiento finaliza,termina, el modelo puede generar texto nuevo basándose enutilizando esos patrones aprendidos.
EtapasLas etapas para entrenarconstruir un chatsistema basado en IA
conversacional
El desarrollo de un sistema conversacional basado en modelos de lenguajeIA suele implicar varias etapas.fases.
1. Recopilación delde dataset
datos
El primer paso consiste en reunir un gran conjunto de datostextos que sirva para entrenar el modelo. Estos datos suelen ser grandes coleccionesproceder de textomuchas procedentesfuentes dedistintas, diferentes fuentes:como:
-
libros
-
artículos científicos
-
páginas web
-
documentosdocumentacióntécnicostécnica -
conversaciones.conversaciones
En modelos orientados a un ámbito específico —por ejemplo, educación científica,científica— los datos podríanpueden incluir:
explicaciones de
biología,biologíaproblemas resueltos de física
o ejercicios de
matemáticasmatemáticas.textos de química.
La calidad delde datasetlos datos es fundamental,crucial, ya queporque el modelo aprenderáaprende directamente de esos ejemplos.ejemplos.
2. PreprocesamientoPreparación dedel los datos
texto
Antes de entrenar el modelo, los textosdatos deben prepararseprepararse. medianteEsto variosimplica pasos.
Entrelos ellos:
limpieza del textoeliminación deeliminar duplicados y normalizar formatos.normalización de formatofiltrado de contenido irrelevante.
Después se realiza un proceso llamado tokenización, en el que el texto se divide en unidades más pequeñas llamadas tokens.
LosUn tokenstoken puedenpuede ser:
- una
- palabra,
palabras partesparte depalabrasuna palabra o incluso un símbolo.caracteres.
Por ejemplo, launa palabrafrase biologíacomo:
dividirse“La inteligencia artificial aprende rápido”
se transforma en variosuna secuencia de tokens dependiendoque delel modelo.modelo puede procesar numéricamente.
3. Entrenamiento del modelo
Una vez preparados los datos, comienza el procesoentrenamiento. de entrenamiento.
El modelo recibe una secuencia de tokens y debe predecir cuál será el siguiente token.. Si lase predicción es incorrecta,equivoca, el algoritmo ajusta los parámetros de la red neuronal para mejorar ella resultado.predicción.
Este proceso se repite millones de veces.
Con el tiempo, el modelo aprende patrones cada vez más complejos como:del lenguaje.
relaciones entre conceptos científicosestructuras gramaticalesformas de resolver problemas.
Los modelos actuales suelen basarse en la arquitectura Transformer, que utiliza mecanismos de atención para analizar ellas contextorelaciones de lasentre palabras dentro de una frase.frase y comprender mejor el contexto.
4. Ajuste para conversación
Un modelo entrenado con texto general no necesariamente sabe mantener conversaciones.una conversación. Por elloeso suele realizarse una fase adicional parade adaptarloajuste alen diálogo.la que el sistema aprende a responder preguntas o a interactuar con usuarios.
EstoPara puedeello hacersese mediante:
datasets de preguntas y respuestasejemplos de
diálogoconversacióno técnicaspares dealineamiento.
Por ejemplo, el modelo puede entrenarse con parespregunta–respuesta, como:
Pregunta:
¿Qué es la ley de Ohm?
Respuesta:
La ley de Ohm establece que la intensidad de corriente que circula por un conductor es proporcional al voltaje aplicado…
Este tipo de ejemplosproceso enseña al modelo a respondergenerar preguntasrespuestas demás formaestructuradas estructurada.y útiles.
5. Evaluación y mejora
DespuésUna delvez entrenamientoentrenado, el modelo se evalúasomete ela comportamientodiferentes delpruebas modelo.
Se compruebacomprobar si:
-
responde correctamente a preguntas
-
mantiene coherencia en conversaciones
-
evita generar información
incorrecta.incorrecta
En función de los resultados, se pueden realizarserealizar nuevasnuevos iteracionesajustes o mejoras en el entrenamiento.
NLP, LLM y el auge de entrenamientola IA generativa
El Procesamiento del Lenguaje Natural (NLP) es el área de la inteligencia artificial que intenta que las máquinas puedan comprender, analizar y generar lenguaje humano. Durante muchos años, las técnicas de NLP se basaban en reglas lingüísticas o ajustesmodelos adicionales.estadísticos relativamente simples. Estos métodos permitían realizar tareas concretas, como clasificar textos o detectar palabras clave, pero tenían limitaciones importantes cuando se trataba de comprender el contexto completo de una frase o manejar conversaciones complejas.
El
Entrenarpanorama uncambió modeloradicalmente desde cero vs adaptar un modelo existente
Encon la prácticallegada existendel dosDeep formasLearning principalesy, especialmente, con la arquitectura transformer, que permitió construir modelos capaces de crearanalizar ungrandes chatcantidades propio.
Entrenartexto un modelo desde cero
Consisteteniendo en construircuenta el modelocontexto ycompleto entrenarlode completamentelas palabras. A partir de estos avances surgieron los Large Language Models (LLM), modelos de lenguaje entrenados con enormes colecciones de texto que pueden realizar múltiples tareas lingüísticas con un datasetúnico propio.sistema.
EstoGracias requiere:a estos modelos, muchas tareas clásicas de NLP pueden abordarse hoy de forma más eficiente y flexible. En lugar de construir un sistema diferente para cada tarea —por ejemplo, uno para traducir textos y otro para resumir documentos— los LLM pueden resolver muchas de estas tareas simplemente mediante instrucciones o ejemplos.
Entre las principales tareas del NLP encontramos varias que hoy se utilizan de forma cotidiana en múltiples aplicaciones tecnológicas:
-
grandesTraduccióncantidadesautomática,dequedatospermite traducir textos entre diferentes idiomas. -
infraestructuraAnálisis decomputaciónsentimiento,avanzadautilizado para detectar opiniones positivas o negativas en redes sociales o reseñas de productos. -
Clasificación de textos, por ejemplo para detectar spam o categorizar documentos.
-
Reconocimiento de entidades, que identifica nombres de personas, lugares o organizaciones dentro de un texto.
-
Resumen automático de documentos, útil para procesar grandes cantidades de información.
-
Sistemas de pregunta-respuesta, capaces de responder preguntas sobre un texto o una base de conocimiento.
-
Conversación automática, como la que se produce en chatbots y asistentes virtuales.
A partir de estas capacidades del NLP han surgido muchas aplicaciones de IA generativa, donde los modelos no solo analizan información, sino que también crean contenido nuevo. Los modelos actuales pueden generar textos completos, redactar artículos, producir código de programación, crear resúmenes o mantener conversaciones relativamente complejas con los usuarios.
Esto ha dado lugar a una gran variedad de herramientas basadas en modelos de lenguaje: asistentes conversacionales, sistemas de apoyo a la programación, motores de búsqueda inteligentes o plataformas educativas capaces de generar explicaciones y ejercicios. Además, estos modelos también se utilizan para generar otros tipos de contenido, como imágenes, audio o vídeo, combinando el lenguaje con otros tipos de datos.
En definitiva, el NLP ha pasado de ser un campo especializado dentro de la inteligencia artificial a convertirse en uno de los motores principales de la IA actual. Los avances en Deep Learning y en los modelos de lenguaje han permitido que las máquinas interactúen con el lenguaje humano de una forma mucho más natural, lo que explica el rápido crecimiento de aplicaciones basadas en chatbots, asistentes inteligentes y sistemas generativos.
Ampliando los modelos
En la práctica, cuando se quiere construir un sistema conversacional o un chatbot basado en inteligencia artificial, existen dos caminos principales. El primero sería entrenar un modelo completamente desde cero, lo que implica construir la red neuronal y alimentarla con enormes cantidades de datos para que aprenda el lenguaje. Este proceso requiere infraestructuras muy potentes, grandes centros de datos y semanas o meses de entrenamiento.
Porque esta razón, suele realizarsenormalmente solo enestá al alcance de grandes empresas tecnológicas o centros de investigación.
Por
Adaptaresta razón, lo más habitual hoy en día no es empezar desde cero, sino partir de un modelo existente
ya entrenado y adaptarlo a una tarea concreta. Los grandes modelos de lenguaje ya poseen un conocimiento general del lenguaje porque han sido entrenados con enormes colecciones de texto. A partir de ahí se pueden ajustar o especializar mediante distintas técnicas.
EsUna de las más conocidas es el fine-tuning, que consiste en volver a entrenar el modelo con un conjunto de datos más pequeño y específico para que aprenda el vocabulario, el estilo o los patrones de un determinado dominio. Por ejemplo, un modelo general puede adaptarse para responder preguntas médicas, jurídicas o educativas entrenándolo con ejemplos propios de ese ámbito. En este proceso se ajustan los parámetros internos del modelo para que responda mejor en ese contexto concreto.
Otra técnica muy utilizada es RAG (Retrieval-Augmented Generation), que en lugar de modificar el modelo permite conectarlo a fuentes de información externas, como bases de datos o colecciones de documentos. Cuando el usuario hace una pregunta, el sistema primero busca información relevante en esos documentos y luego utiliza el modelo de lenguaje para generar la opciónrespuesta máscombinando habitual.su conocimiento previo con esos datos recuperados. De esta forma el modelo puede trabajar con información actualizada o especializada sin necesidad de volver a entrenarlo.
También se utilizan estrategias de prompting avanzado, que consisten en diseñar cuidadosamente las instrucciones o ejemplos que se proporcionan al modelo para guiar su comportamiento. En muchos casos, una buena forma de plantear la pregunta o proporcionar contexto adicional puede mejorar notablemente la calidad de las respuestas.
En estedefinitiva, casolos modelos de lenguaje actuales no funcionan como una mente humana que razona de forma consciente. Su comportamiento se utilizabasa unen modeloaprender preentrenadopatrones estadísticos del lenguaje a partir de grandes cantidades de datos y utilizar esos patrones para generar nuevas frases. Sin embargo, cuando estos modelos se entrenan a gran escala y se adaptacombinan mediantecon técnicas como:como el fine-tuning o el RAG, pueden producir respuestas sorprendentemente coherentes y útiles.
fine-tuningRAGprompting avanzado.
Para
Esto permite crear chats especializadosvisualizarlo con menosun recursos.
educativo,
Ejemplo conceptual en educación científica
Imaginemosimaginemos que queremos entrenarconstruir un modelo orientado a resolver problemas de física de bachillerato.
El datasetsistema podría incluirentrenarse con miles de ejemplos como:donde aparece una pregunta y su resolución paso a paso. Por ejemplo:
Pregunta:
modelo“Un objeto de 5 kg acelera a 2 m/s². Calcula la fuerza aplicada.
”
El
Respuesta:
que
Aplicamosdebe aplicar la segunda ley deNewton:
Newton, usar la fórmula F = m · aF=y5calcular×el2F = 10 N.resultado.
Del
mismo modo, podría entrenarse con ejemplos de biología —como preguntas sobre la función del ADN— o de química, como ajustar ecuaciones químicas. Con suficientes ejemplos, el modelo aprenderíaacaba aprendiendo los patrones de explicación y resolución de problemas que aparecen en esos campos.
Esto explica por qué hoy es posible crear asistentes especializados en educación, ciencia o cualquier otro ámbito: no porque la máquina “entienda” el patrónconocimiento decomo resolución.
haría
Ejemplouna enpersona, biología
sino Datasetporque deha ejemplo:
Pregunta:
suelen
¿Cuál es la función del ADN?
Respuesta:
El ADN contiene la información genética que permite aformularse lascélulas fabricar proteínas y transmitir características hereditarias.
Ejemplo en química
Pregunta:
Ajusta la ecuación: H₂ + O₂ → H₂O.
Respuesta:
La ecuación ajustada es: 2H₂ + O₂ → 2H₂O.
Recursos para comprender cómo se entrenan los modelos
Uno de los investigadores que mejor ha explicado públicamente estos procesos es Andrej Karpathy, antiguo investigador de OpenAI y profesor en Stanford University.
Su trabajo divulgativo explica con claridad cómo funcionan los modelos de lenguajepreguntas y cómo puedensuelen entrenarse.
Unlas vídeorespuestas
En este vídeo se muestra paso a paso cómo construir un pequeño modelodentro de lenguajeesos similar a GPT, explicando:dominios.
tokenizaciónarquitectura Transformerentrenamiento del modelogeneración de texto.
También es muy interesante su vídeo:
En él se ofrece una explicación clara de cómo funcionan los LLM modernos.
Conclusión
Entrenar un chat basado en modelos de lenguaje es un proceso que combina grandes conjuntos de datos, redes neuronales profundas y algoritmos de aprendizaje automático. Aunque los modelos actuales requieren infraestructuras complejas para su entrenamiento completo, comprender su funcionamiento ayuda a entender cómo la inteligencia artificial es capaz de generar texto, responder preguntas y mantener conversaciones.
Desde un punto de vista conceptual, el entrenamiento de un chat implica varias etapas: recopilación de datos, preprocesamiento, entrenamiento del modelo, ajuste para conversación y evaluación. Estas fases permiten transformar grandes colecciones de texto en sistemas capaces de interactuar con las personas.
Hoy en día, la mayoría de aplicaciones no entrenan modelos desde cero, sino que adaptan modelos existentes mediante técnicas como el fine-tuning o el uso de datos externos. Sin embargo, el principio fundamental sigue siendo el mismo: aprender patrones del lenguaje a partir de grandes cantidades de ejemplos.
Comprender este proceso permite interpretar mejor las capacidades y limitaciones de los sistemas de inteligencia artificial que utilizamos actualmente y abre la puerta a desarrollar herramientas cada vez más especializadas en campos como la educación científica.
El origen: enseñar a las máquinas a predecir palabras
Los modelos de lenguaje nacen de una pregunta aparentemente simple:
¿Puede una máquina aprender a predecir cuál será la siguiente palabra de una frase?
Por ejemplo, en una frase como:
“Hoy hace mucho ___”
La mayoría de las personas completaría la frase con palabras como calor, frío o viento. Nuestro cerebro aprende estas probabilidades porque ha estado expuesto al lenguaje durante años.
Los modelos de lenguaje hacen algo parecido. Durante su entrenamiento analizan millones o incluso billones de palabras procedentes de libros, páginas web, artículos o conversaciones.
Su objetivo principal es aprender a responder a una pregunta muy concreta:
¿Qué palabra es más probable que venga después en una secuencia de texto?
A partir de esta tarea aparentemente simple, los modelos terminan aprendiendo una enorme cantidad de conocimiento implícito sobre:
gramáticaestilocontextorelaciones entre conceptosestructuras narrativas
Este aprendizaje estadístico del lenguaje es lo que permite que puedan generar textos coherentes.
La evolución de los modelos de lenguaje
Durante muchos años los modelos de lenguaje eran relativamente simples. UtilizabanFuncionaban con métodos estadísticos que analizaban secuencias cortas de palabras.
para calcular probabilidades. Por ejemplo, los sistemas podían calcularestimar probabilidadesque como:
después de la expresión “buenos” es muy probable que aparezca “días”, o que después de “por favor” suele venir “
gracias”.días”Estos - sistemas
despuéseran útiles para tareas básicas como corrección automática o predicción de“porpalabras,favor” suele venir “gracias”
Sin embargo, estos modelospero tenían una limitación importante: solo podían manejar contextos muy pequeños. y apenas entendían el significado global de una frase.
El gran salto llegó con el desarrollo del Deep Learning yaplicado especialmenteal lenguaje y, sobre todo, con la aparición en 2017 de la arquitectura Transformer, presentada en 2017el famoso artículo Attention is All You Need. Esta arquitectura introdujo el mecanismo de atención.
Los Transformers permitieron, que permite a los modelos analizaran frases completas, párrafos e incluso documentos enteros, entendiendo lasanalizar relaciones entre palabras dentro de una frase completa e incluso entre frases muy distantesseparadas dentro de un texto. Gracias a esta innovación, los sistemas podían captar mejor el contexto y procesar el lenguaje de forma mucho más eficiente que los modelos anteriores basados en redes recurrentes.
A partir de ese momento surgieroncomenzaron a desarrollarse los llamados Large Language Models (LLM), o modelos de lenguaje de gran tamañotamaño. Estos modelos utilizan redes neuronales profundas entrenadas con enormes cantidades de texto procedente de libros, páginas web, artículos científicos o conversaciones. Su objetivo es aprender los patrones del lenguaje para poder comprender y generar texto coherente.
Algunos
Uno de los hitos importantes fue el lanzamiento de la familia GPT de OpenAI. El primer modelo, GPT-1, apareció en 2018 con unos 117 millones de parámetros. Poco después llegó GPT-2, que ya alcanzaba alrededor de 1.500 millones de parámetros. En 2020 se presentó GPT-3, con aproximadamente 175.000 millones de parámetros, lo que permitió generar textos sorprendentemente coherentes y realizar múltiples tareas lingüísticas con un mismo modelo.
En paralelo surgieron otros modelos importantes. Por ejemplo, BERT, desarrollado por Google, se centró en mejorar la comprensión del lenguaje utilizando representaciones bidireccionales del contexto. Este modelo se convirtió en uno de los más importantesinfluyentes actualmenteen tareas de NLP como clasificación de textos o sistemas de pregunta-respuesta.
Con el tiempo, la investigación en modelos de lenguaje se aceleró enormemente. En la actualidad existen numerosos modelos de lenguajeLLM desarrollados tanto por grandes empresas tecnológicas ycomo por comunidades de investigación.investigación abiertas.
Entre los más conocidos podemos mencionar:
GPT (OpenAI)Es uno de los modelos más populares. La familia GPT (Generative Pre-trained Transformer) haes sidoprobablemente responsablela demás granpopular. parteEstos delmodelos han impulsado el auge reciente de los asistentes conversacionales.conversacionales y de muchas herramientas de IA generativa.
Gemini (Google)ModeloEs desarrolladola evolución de los modelos de lenguaje desarrollados por GoogleGoogle. queEstá integradiseñado capacidadespara trabajar de lenguaje,forma razonamientomultimodal, combinando texto, imágenes y multimodalidadotros (texto,tipos imágenes,de etc.).información.
Claude (Anthropic)UnEste modelo se ha diseñado conponiendo especial atenciónénfasis aen la seguridad y alel alineamiento con valores humanos.humanos, intentando reducir riesgos asociados al uso de la inteligencia artificial.
Llama (Meta)
Una familiade las familias de modelos muymás influyenteinfluyentes porqueen variasel ecosistema open source. Varias versiones han sido liberadas comopúblicamente, openlo source,que permitiendoha permitido a investigadores y desarrolladores utilizarloscrear ynuevas adaptarlos.aplicaciones basadas en ellos.
MistralUnoUn proyecto europeo que ha ganado relevancia por desarrollar modelos relativamente eficientes, capaces de losofrecer proyectosbuen europeos más interesantes en el campo de los modelos abiertos, con modelos eficientes que pueden ejecutarserendimiento incluso en equiposhardware relativamentemás modestos.modesto.
Qwen (Alibaba)
Una familia de modelos muyque competitivaha demostrado un rendimiento competitivo en variosmúltiples idiomas y que también cuenta con versiones accesibles para uso local.
EstosAunque estos modelos comparten una misma base tecnológica común —los Transformers—transformers— peropueden difierendiferir mucho en aspectosdistintos aspectos: el tamaño del modelo, los datos utilizados para entrenarlo, las optimizaciones internas o las licencias de uso.
En conjunto, la evolución de los modelos de lenguaje ha sido extraordinariamente rápida. En apenas una década se ha pasado de sistemas capaces de completar frases simples a modelos que pueden mantener conversaciones complejas, explicar conceptos científicos, generar código o analizar grandes cantidades de información. Esta evolución ha sido uno de los factores clave que han impulsado el desarrollo de la IA generativa moderna y la proliferación de asistentes inteligentes en múltiples ámbitos.
Parametrización de modelos
Para comprender cómo funcionan realmente los modelos de lenguaje actuales, conviene conocer algunos conceptos fundamentales. Estos conceptos explican cómo procesan el texto, cómo se entrenan, qué recursos necesitan y por qué algunos modelos son enormes mientras otros pueden ejecutarse en un ordenador personal.
1. Tokens: las unidades básicas del lenguaje
Los modelos de lenguaje no trabajan directamente con palabras completas como hacemos los humanos. En su lugar, el texto se divide en pequeñas unidades llamadas tokens.
Un token puede ser:
-
una palabra completa
-
parte de una palabra
-
un número
-
un signo de puntuación
Por ejemplo, una palabra larga como “computadora” puede dividirse en varios tokens dependiendo del sistema de tokenización utilizado.
Los tokens son importantes por varias razones:
-
determinan cuánta información puede procesar el modelo
-
influyen en el coste de uso de muchos servicios de IA
-
marcan la longitud máxima de una conversación
Los modelos generan texto prediciendo el siguiente token más probable basándose en los tokens anteriores.
2. Contexto: la memoria del modelo
El contexto (o context window) es la cantidad de texto que el modelo puede analizar al mismo tiempo. En otras palabras, es la cantidad de tokens que el modelo puede “recordar” durante una conversación o una tarea.
Cuanto mayor es el contexto, más información puede utilizar el modelo para responder.
Esto es clave en tareas como:
-
tamañoanalizar documentos largos -
datosresumirde entrenamientoinformes -
optimizaciónrevisar código -
licenciasmantenerdeconversacionesusocomplejas
Los modelos antiguos tenían contextos muy pequeños (unos cientos o miles de tokens). Hoy existen modelos capaces de manejar cientos de miles o incluso millones de tokens, lo que permite analizar documentos muy extensos o incluso libros completos.
Sin embargo, aumentar el contexto también aumenta el coste computacional, porque el cálculo de atención en los transformers crece rápidamente con la longitud del texto.
Modelos3. Prompt: la instrucción que guía al modelo
El prompt es la instrucción o pregunta que el usuario proporciona al modelo.
Puede ser algo simple:
“Explica qué es la fotosíntesis”
o algo más elaborado:
“Explica la fotosíntesis para alumnos de 1º de ESO usando ejemplos sencillos”.
La forma en que se formula el prompt influye mucho en la calidad de la respuesta. Por eso en los últimos años ha surgido una disciplina conocida como ingeniería de prompting, que estudia cómo diseñar instrucciones eficaces para los modelos.
4. Cómo se entrenan los modelos de lenguaje
Los LLM se entrenan utilizando redes neuronales profundas basadas en transformers y enormes colecciones de texto.
Durante el entrenamiento el modelo aprende a predecir el siguiente token en una secuencia. Por ejemplo:
“La fotosíntesis es el proceso mediante el cual las plantas…”
El modelo aprende que las siguientes palabras más probables pueden ser:
-
producen
-
generan
-
transforman
Este proceso se repite billones de veces con grandes conjuntos de datos.
Los datasets utilizados suelen incluir:
-
páginas web
-
libros
-
artículos científicos
-
código fuente
-
documentos técnicos
Por ejemplo, algunos modelos se han entrenado con más de un billón de tokens de texto procedentes de múltiples fuentes públicas.
5. Tamaño del modelo: los parámetros
Otro concepto clave es el número de parámetros.
Los parámetros son los valores internos que la red neuronal ajusta durante el entrenamiento para aprender patrones.
Algunos ejemplos aproximados:
-
GPT-1 → 117 millones de parámetros
-
GPT-2 → 1.500 millones
-
GPT-3 → 175.000 millones
El aumento del número de parámetros permitió mejoras importantes en la capacidad de los modelos para comprender y generar texto.
Sin embargo, los modelos más grandes requieren enormes recursos de computación.
6. Coste de entrenamiento y recursos necesarios
Entrenar modelos de lenguaje es extremadamente costoso.
Por ejemplo:
-
entrenar un modelo de 13 mil millones de parámetros puede costar alrededor de 1 millón de dólares y requerir miles de GPUs funcionando durante semanas.
Entrenar modelos gigantes como GPT-3 puede costar millones de dólares en infraestructura y energía.
Por esta razón, la mayoría de organizaciones no entrenan modelos desde cero, sino que adaptan modelos ya existentes mediante técnicas como:
-
fine tuning
-
LoRA
-
RAG
-
prompt engineering
Estas técnicas permiten especializar modelos sin repetir todo el entrenamiento.
7. Tabla resumen de algunos modelos populares
| Modelo | Organización | Tipo | Parámetros aproximados | Características |
|---|---|---|---|---|
| GPT-4 / GPT-4o | OpenAI | Propietario | No público | Muy potente, multimodal |
| Gemini | Propietario | No público | Multimodal, gran contexto | |
| Claude | Anthropic | Propietario | No público | Contexto muy grande |
| Llama 3 | Meta | Abierto | hasta ~70B | Muy usado en investigación |
| Mistral | Mistral AI | Abierto | 7B–Mixtral | Muy eficiente |
| Qwen | Alibaba | Abierto / mixto | 7B–72B | Multilingüe |
| Falcon | TII | Abierto | hasta 180B | Muy popular en open source |
| GPT-J | EleutherAI | Abierto | 6B | Uno de los primeros LLM abiertos |
Tipos de modelos de lenguaje: propietarios, abiertos, online y locales
Hoy en día los modelos offlinede lenguaje pueden clasificarse de varias formas según cómo se distribuyen, cómo se ejecutan y qué grado de acceso tenemos a ellos. Comprender estas diferencias es importante porque determina cómo podemos utilizarlos, qué recursos necesitamos y qué control tenemos sobre los datos.
OtraUna primera distinción importante es entre cómomodelos sepropietarios utilizan estosy modelos abiertos.
Modelos
Los accesiblesmodelos mediantepropietarios APIson
Muchasdesarrollados por grandes empresas ofrecentecnológicas que no publican completamente su arquitectura, sus modelosdatos de entrenamiento o sus pesos internos. El acceso suele realizarse a través de plataformas online o APIs. Ejemplos conocidos son los modelos APIs (interfacesGPT de programación)OpenAI, Gemini de Google o Claude de Anthropic. EstoEstos significamodelos suelen ofrecer un rendimiento muy alto porque están entrenados con enormes infraestructuras y grandes volúmenes de datos. Sin embargo, su uso depende de las condiciones de la empresa que los desarrolla y normalmente implica acceso a través de servicios en la nube.
Por otro lado, existen los modelos abiertos u open source, en los que gran parte del modelo se publica para que investigadores y desarrolladores puedenpuedan enviarutilizarlos, estudiarlos o adaptarlos. Ejemplos conocidos son Llama (Meta), Mistral, Falcon o algunas versiones de Qwen. Estos modelos han impulsado mucho la investigación porque permiten experimentar, crear nuevas aplicaciones o ejecutar inteligencia artificial sin depender completamente de grandes plataformas tecnológicas.
Otra clasificación muy importante es la forma en la que se ejecutan los modelos: online o localmente.
Muchos modelos actuales se utilizan a través de APIs en la nube. En este modelo, el usuario o el desarrollador envía una consulta ala modeloun servidor a través de internet y recibirrecibe unala respuesta.
del modelo. Este enfoque tiene varias ventajas:
no requiere disponer de hardware
potente,potentepermite acceso inmediatoacceder a modelos muy grandes y - las
puedenactualizacionesempresasconstantesactualizar
los sistemas. Sin embargo, también presentaimplica algunas limitaciones:
dependencia de
conexióninterneta - internet,
posibles costes de uso
y menor control sobre los datos
enviadosenviados.
Frente
este
Modelosmodelo ejecutadoshan localmentesurgido (offline)
Enen los últimos años han surgido herramientas que permiten ejecutar modelos de lenguaje directamente en un ordenador local.
sin necesidad de conexión a internet. Plataformas como:
Ollama
,LM Studio
o text-generation-webui
permiten descargar modelos y utilizarlos sinde conexiónforma aprivada internet.en el propio equipo. Estas herramientas actúan como gestores que permiten instalar, ejecutar y probar modelos de lenguaje en local.
EsteEl enfoqueuso local tiene varias ventajas importantes:
- Por
- un
,mayorlado, mejora la privacidad ya - que
documentoscontrollastotalconsultassobrey losdatosanalizados - no
posibilidadsalendedel ordenador o del servidor interno. Además, permite integrarel modelomodelos en sistemas propios o
entornos corporativos sin depender de servicios externos. Por ejemplo, una organización puede cargar documentos internos y crear un sistema de consulta privadobasado en IA sin queenviar esa información a servicios en la información salga de sus servidores.nube.
Finalmente,
Modelostambién open source y modelos propietarios
También es habitualpodemos distinguir entre modelos abiertosgrandes y modelos propietariosligeros.
Modelos propietarios
Son desarrollados por empresas que no publican completamente el modelo ni sus datos de entrenamiento.
Ejemplos conocidos:
GPTGeminiClaude
Suelen ofrecer alto rendimiento, pero su uso depende de las condiciones de la empresa que los desarrolla.
Modelos open source
En estos casos el modelo (o al menos gran parte de él) se publica para que investigadores y desarrolladores puedan utilizarlo, modificarlo o adaptarlo.
Ejemplos:
LlamaMistralFalconQwen open
Este enfoque favorece la investigación, la transparencia y la innovación, ya que muchas personas pueden experimentar con los modelos.
Conceptos clave para entender cómo funcionan
Cuando se trabaja con modelos de lenguaje aparecen algunos conceptos fundamentales que conviene entender.
Tokens
Los modelos nomás trabajangrandes exactamentepueden contener palabras, sino con tokens.
Un token puede ser:
una palabraparte de una palabraun signo de puntuación
Por ejemplo, la palabra “computadora” podría dividirse en varios tokens.
El número de tokens determina en muchos casos:
el coste de uso en APIsel tamaño de la conversación que puede procesar el modelo
Contexto
El contexto es la cantidad de texto que el modelo puede analizar a la vez.
En modelos antiguos el contexto era muy pequeño. Hoy existen modelos capaces de manejar cientos de miles de tokens,millones lode parámetros y requieren grandes infraestructuras para funcionar. Son los que permitesuelen analizar documentos completos, libros o conversaciones largas.
El contexto es clave para tareas como:
resumir documentosanalizar informesmantener diálogos complejos
Prompt
El prompt es la instrucción que damos al modelo.
La formautilizarse en que se formula un prompt puede influir muchoservicios en la calidadnube. En cambio, han aparecido versiones más ligeras o compactas que sacrifican parte del rendimiento a cambio de lapoder respuesta.ejecutarse Poren esoordenadores hapersonales surgidoo inclusoservidores unapequeños. disciplinaEste conocida como ingenieríatipo de prompting,modelos quepermite estudiaexperimentar cómocon formular preguntas o instruccionesIA de forma eficaz.
y
Másaccesible, alláalgo especialmente interesante en entornos educativos o de la conversación: herramientas y aplicaciones
investigación.
LosEn conjunto, el ecosistema actual de modelos de lenguaje noes muy diverso. Existen modelos abiertos y propietarios, servicios online y sistemas que funcionan localmente, así como versiones gigantes y versiones ligeras. Esta diversidad es precisamente una de las razones por las que la inteligencia artificial se utilizanestá soloextendiendo paratan conversar.rápidamente: Tambiéncada puedenorganización integrarsepuede enelegir múltiplesel aplicaciones.tipo de modelo que mejor se adapte a sus necesidades, recursos y nivel de control sobre los datos.
Por ejemplo:
análisis de documentosgeneración de informesasistencia en programaciónsistemas de tutoría educativaclasificación de textosautomatización de tareas administrativas
En muchos casos se combinan con bases de datos o documentos mediante técnicas como RAG (Retrieval Augmented Generation), que permite que el modelo responda utilizando información específica de una organización.
El siguiente paso:paso en los modelos: los agentes de IA
inteligencia artificial
En los últimos años haestá empezadoempezando a aparecer un nuevo concepto:concepto que muchos investigadores consideran el siguiente paso en la evolución de la inteligencia artificial: los agentes de IA.
Hasta ahora, la mayoría de aplicaciones basadas en modelos de lenguaje funcionan de forma relativamente simple. El usuario hace una pregunta, el modelo analiza el texto y genera una respuesta. Es un proceso muy potente, pero también bastante limitado: el sistema responde, pero no actúa.
Los agentes de inteligencia artificial amplían esa idea. Un agente puede entender una tarea, dividirla en pasos y ejecutar acciones para completarla. En otras palabras, no se limita a generar texto, sino que planifica, toma decisiones y utiliza herramientas externas para alcanzar un objetivo.
MientrasEsto significa que un modelo de lenguaje responde a una pregunta concreta, un agente puede:puede hacer cosas como:
Por ejemplo, imaginemos una tarea como elaborar un informe sobre el cambio climático. Un modelo de lenguaje clásico podría explicar el tema si se le pregunta. En cambio, un agente podría:
Todo elloeste deproceso formapodría automática.realizarse con mínima intervención humana.
El nuevo paradigma: la orquestación de agentes
EsteA enfoque está dando lugar a lomedida que algunosestos investigadoressistemas llamanevolucionan, ha surgido una idea todavía más interesante: la orquestación de agentes.
En lugar de un único modelosistema que lointenta hagahacerlo todo, se utilizan varios agentes especializados que colaboran entre sí., Cadacada uno puede tenercon una función concreta:concreta. Este enfoque consiste en coordinar diferentes agentes dentro de un mismo sistema para alcanzar un objetivo común.
Por ejemplo, en un sistema más complejo podrían intervenir:
EsteDe alguna forma, este modelo recuerda enal ciertofuncionamiento modo ade un equipo humano de trabajo humano, donde diferentescada especialistasespecialista colaboranaporta una capacidad concreta para resolver un problema complejo.más grande.
Un cambio profundo en la interacciónforma de interactuar con la tecnología
LosEste modelosavance detambién lenguajeestá están transformandocambiando la formamanera en que interactuamos con los ordenadores.
Durante décadas, para utilizar un sistema informático era necesarioimplicaba aprender comandos, menúsinterfaces complejas o interfacesprogramas complejas.especializados.
Con los modelos de lenguaje y los agentes, cada vez más herramientas permiten interactuar simplemente mediante lenguaje natural. Además, los agentes pueden actuar de forma más autónoma, realizando tareas completas en lugar de limitarse a responder preguntas.
Para el mundo educativo estoEsto abre posibilidades interesantes:interesantes en muchos ámbitos, incluido el educativo. Por ejemplo, podrían aparecer:
Comprender la tecnología para usarla con criterio
ComprenderAunque estas tecnologías son muy potentes, también es importante entender sus capacidades y sus limitaciones. Los agentes no sustituyen el juicio humano ni el pensamiento crítico. Son herramientas que pueden ayudar a automatizar tareas y gestionar información, pero su uso requiere supervisión y criterio.
En el ámbito educativo, comprender cómo funcionan estoslos modelos —susde capacidadeslenguaje y tambiénlos sus limitaciones—agentes es unespecialmente pasoimportante. importanteNo parasolo permite utilizarlos de forma críticamás eficaz, sino también enseñar a los estudiantes a entender críticamente las tecnologías que están transformando nuestra forma de trabajar y responsable.aprender.