1.5 Infraestructura de IA y ejecución de modelos

ElCuando ~~entrenamiento~~trabajamos con inteligencia artificial —especialmente con modelos grandes como redes neuronales o modelos de lenguaje— el hardware se convierte en un elemento fundamental. Los cálculos necesarios para entrenar o ejecutar estos modelos son enormes y larequieren ~~inferencia~~procesadores capaces de realizar millones o incluso billones de operaciones matemáticas por segundo.

Por esta razón, en los últimos años han aparecido distintos tipos de procesadores especializados para IA. Mientras que los ordenadores tradicionales utilizan principalmente CPUs, el desarrollo de la inteligencia artificial ha impulsado el uso de GPUs, TPUs y NPUs, cada uno optimizado para distintos tipos de tareas.

De forma sencilla, podemos pensar en ellos como diferentes “motores” de cálculo diseñados para distintos contextos: centros de datos, investigación, ordenadores personales o dispositivos móviles.

CPU (procesador tradicional)
Las CPUs son los procesadores generales de los ordenadores. Son muy versátiles y pueden ejecutar todo tipo de programas, pero no están optimizadas para los cálculos masivos que requieren los modelos de inteligencia artificial.

Una CPU moderna puede realizar solo unas pocas operaciones simultáneas, mientras que los modelos de IA requieren ~~hardware~~realizar ~~acelerado.~~miles Ao ~~continuación~~millones de operaciones matemáticas en paralelo.

Por eso, aunque una CPU puede ejecutar modelos pequeños, no suele ser suficiente para entrenar redes neuronales grandes.

GPU (Graphics Processing Unit)
Las GPUs fueron diseñadas originalmente para gráficos y videojuegos, pero resultaron ser muy eficaces para inteligencia artificial.

Su gran ventaja es el procesamiento paralelo: una GPU puede tener miles de núcleos trabajando al mismo tiempo, lo que permite ejecutar muchas operaciones matemáticas simultáneamente.

Esto las convierte en la herramienta principal para entrenar modelos de deep learning. Hoy en día, la mayoría de los modelos de IA se ~~compara~~entrenan ~~los~~utilizando ~~principales:~~GPUs en centros de datos o clusters de computación.

Ventajas principales de las GPUs

Gran capacidad de cálculo paralelo

Compatibilidad con muchos frameworks de IA (PyTorch, TensorFlow, JAX)

Ecosistema de software muy desarrollado

Flexibilidad para distintos tipos de tareas

Por esta razón, empresas como NVIDIA dominan gran parte del hardware utilizado para entrenar modelos de IA.

TPU (Tensor Processing Unit)
Las TPUs son procesadores diseñados específicamente para inteligencia artificial. Fueron desarrolladas por Google para acelerar operaciones matemáticas típicas de redes neuronales, especialmente multiplicaciones de matrices.

A diferencia de las GPUs, las TPUs utilizan una arquitectura especializada llamada systolic array, que permite realizar cálculos de forma extremadamente eficiente en tareas de aprendizaje profundo.

En algunos casos, las TPUs pueden ofrecer una eficiencia energética mucho mayor que CPUs y GPUs para tareas de inferencia y entrenamiento.

Ventajas principales de las TPUs

Muy eficientes en operaciones de redes neuronales

Alto rendimiento por consumo energético

Integración directa con plataformas como Google Cloud

Sin embargo, suelen ser menos flexibles que las GPUs y están más orientadas a ciertos frameworks.

NPU (Neural Processing Unit)
Las NPUs son procesadores diseñados específicamente para ejecutar modelos de IA en dispositivos pequeños como móviles, ordenadores portátiles o dispositivos IoT.

Se encuentran, por ejemplo, en chips de teléfonos o en procesadores modernos de laptops (como Apple Silicon o Intel AI Boost). Su objetivo principal es ejecutar modelos de IA de forma eficiente directamente en el dispositivo.

Una de sus principales ventajas es la eficiencia energética, ya que consumen mucha menos energía que GPUs o CPUs para tareas de inferencia.

Esto permite ejecutar funciones de inteligencia artificial en tiempo real, como reconocimiento de voz, visión artificial o asistentes inteligentes, sin depender de la nube.

Ventajas principales de las NPUs

Muy bajo consumo energético

Ideales para dispositivos móviles o edge computing

Buen rendimiento para inferencia en tiempo real

Tabla comparativa de tecnologías de hardware para IA

~~fuerteinferencia~~ en Intel

Tecnología	Tipo de ~~hardware~~dispositivo	~~Características/uso~~Uso principal	~~Rendimiento relativo~~Ventajas	~~Costo/ejecución~~	~~Accesibilidad educativa~~Ejemplos
GP ~~U (NVIDIA)~~ CPU	~~Procesador~~Ordenadores ~~paralelo general. Optimizado para matrices (CUDAM, Tensor Cores). Soporta PyTorch, TF.~~generales	~~H100/A100:~~Tareas ~~~1–3 PFLOPS~~generales, ~~(FP16)~~control ~~por~~del ~~unidad. Gran VRAM (80–141GB). Soporta batch grande y redes de atención extensas.~~sistema	~~Alto:~~Gran ~~$4–10/h (GPU en nube). Tarjetas PC ~$800–$3000 según modelo.~~flexibilidad	~~Muy~~Intel ~~accesibles:~~Xeon, ~~Colab/Kaggle~~AMD ~~ofrecen GPUs gratis; muchas universidades usan GPUs gaming.~~EPYC
~~TPU (Google Cloud)~~GPU	~~ASIC~~Centros ~~tensor~~de ~~específico.~~datos, ~~Integración~~PCs	Entrenamiento ~~con~~de ~~TensorFlow/JAX.~~modelos ~~Diseñado~~de ~~para~~IA	Gran paralelismo y ~~entrenamiento~~ecosistema ~~de ML en la nube. No disponible fuera de Google Cloud.~~software	~~v6e:~~NVIDIA ~~~2 PFLOPS~~H100, ~~FP16~~A100, ~~por~~AMD ~~chip. Masivo paralelismo (bajo costo por token).~~	~~Pago por uso: ~$2.70/h por TPU v6e (nube Google). No hay versión local; uso sólo en servicios Google (Cloud TPU o Colab TPU gratuita).~~	~~Limitado: Colab da pequeñas TPUs gratis; uso educativo real en nube (p.ej. Google Cloud for Education créditos).~~MI300
~~NPU / Neural Engine~~TPU	~~Unidades~~Infraestructura IAcloud	Entrenamiento ~~chips~~e inferencia de ~~móviles/PCs~~modelos ~~(ex. Apple, Huawei). Muy eficientes energéticamente. Se usan en visión, NLP en dispositivo.~~grandes	~~Ej.:~~Muy ~~Apple~~eficiente ~~ANE~~para v5operaciones ~~(A15):~~de ~~15.8 TFLOPS (FP16). La primera ANE (A11) fue 0.6 TFLOPS; cada gen crece mucho.~~tensor	~~Integrado en dispositivos (smartphone/tablet). No se compra separado. Costo = el dispositivo (iPhone/AirPods/Mac con M-series).~~	~~Alta: Los estudiantes llevan móviles con NPU.~~ Google ~~Coral~~TPU ~~(Edge~~v5, ~~TPU)~~v6, ~~~$75 es asequible para demos de edge.~~v7
~~FPGA~~NPU	~~Hardware~~Móviles, ~~reconfigurable~~laptops, ~~(p.ej.~~edge ~~Xilinx). Puede diseñarse el circuito específico para IA.~~devices	~~Rendimiento~~Inferencia ~~moderado.~~local ~~Menos~~de ~~paralelo que GPU en FP, pero baja latencia.~~IA	~~Alto de entrada: tarjetas FPGA avanzadas ~miles USD.~~	~~Bajo: Difícil de programar (Verilog) en cursos básicos; se usa más en investigación/industria. Existen kits educativos (Digilent) pero limitados.~~
~~ASIC~~ ~~(EdgeTPU)~~	~~Chips específicos para IA (ej. Google Edge TPU, USB accelerator). Ultraeficientes para inferencia puntual.~~	~~Edge TPU (Google): ~4 TOPS/W. Rendimiento limitado a modelos pequeños (p.ej. MobileNet, BERT pequeño).~~	~~Moderado: Edge TPU USB ~$75. Otros ASIC (Graphcore IPU, Habana) solo en servidores costosos.~~	~~Bueno: Edge TPUs para IoT / educación (Raspberry Pi + Coral). TPU/ASIC empresariales no disponibles en escuela.~~
~~Neuromórficos~~	~~Chips de investigación (Intel Loihi, IBM TrueNorth). Imitan redes neuronales físicas spiking.~~	~~Aún experimentales.~~ Muy bajo consumo ~~(ej. mil millones de OPS por segundo gastando milivatios).~~energético	~~Experimental.~~Apple NoNeural ~~comercial~~Engine, ~~generalizada.~~	~~Muy~~AI ~~bajo:~~Boost, ~~solo~~Qualcomm ~~en laboratorios especializados.~~Hexagon

EnLa ~~resumen:~~infraestructura de hardware es uno de los pilares del desarrollo de la inteligencia artificial. Mientras que las ~~GPU~~CPUs ~~son~~siguen siendo esenciales para tareas generales, el ~~estándar ampliamente usado (fáciles~~crecimiento de ~~acceder~~la IA ha impulsado el desarrollo de aceleradores especializados como GPUs, TPUs y NPUs.

Las GPUs dominan el entrenamiento de modelos grandes, las TPUs ofrecen una gran eficiencia en ~~colabs,~~centros ~~PCs~~de ~~propias~~datos y las NPUs permiten llevar la inteligencia artificial directamente a dispositivos personales.

En la práctica, los sistemas modernos suelen combinar varios de estos componentes, creando arquitecturas heterogéneas capaces de aprovechar lo mejor de cada tipo de procesador.

Dónde ejecutar modelos: nube, local y edge

Cuando trabajamos con modelos de inteligencia artificial, una de las decisiones importantes es dónde se van a ejecutar. En la práctica existen tres opciones principales: usar infraestructura en la nube, ejecutarlos en equipos propios o ~~nubes~~hacer ~~académicas).~~que ~~Las~~funcionen ~~TPU~~ ~~ofrecen mayor eficiencia por coste~~directamente en ~~cargas~~dispositivos. Cada opción tiene ventajas y limitaciones, y suele elegirse en función del tipo de ~~inferencia,~~proyecto, ~~pero~~los ~~sólo~~recursos ~~están~~disponibles y el nivel de control que se necesita sobre los datos.

Computación en la nube
La nube es probablemente la forma más sencilla de empezar a trabajar con inteligencia artificial. Plataformas como Google ~~Cloud~~Colab, ~~(aunque~~AWS ~~Colab~~o daAzure ~~acceso~~permiten ~~limitado)~~ejecutar modelos sin instalar nada en el ordenador. El usuario simplemente abre un entorno en línea y puede utilizar recursos potentes, como GPUs o grandes cantidades de memoria.

La principal ventaja de la nube es que permite escalar fácilmente el hardware según la necesidad. ~~Los~~Si ~~NPUs~~un ~~son~~proyecto ~~útiles~~necesita mucha potencia de cálculo, se pueden utilizar servidores muy potentes durante unas horas o días. Esto es especialmente útil para IAentrenar modelos grandes o para proyectos que requieren GPUs avanzadas.

Otra ventaja es la facilidad de uso: muchas plataformas ya incluyen entornos de programación, bibliotecas y datasets preparados para trabajar.

Sin embargo, también tiene algunas limitaciones. La nube depende de una conexión a internet y normalmente implica costes asociados al tiempo de cálculo o al uso de recursos. Además, enviar datos a servidores externos puede generar preocupaciones relacionadas con la privacidad.

En educación, la nube es muy útil para demos en ~~móviles~~clase, yexperimentos ~~dispositivos~~o ~~embebidos,~~proyectos ~~mejorando~~puntuales que necesitan hardware potente.

Infraestructura local (on-premises)
Otra posibilidad es ejecutar los modelos directamente en ordenadores propios, como PCs, portátiles o servidores del centro educativo o de la empresa. A esto se le llama infraestructura local o on-premises.

La principal ventaja de este enfoque es el control total sobre los datos. Como la información no sale del equipo o del servidor local, es más fácil mantener la privacidad y ~~energía.~~cumplir ~~FPGAs~~políticas de seguridad.

También se evita la latencia de red, es decir, el tiempo que tarda la información en viajar a servidores remotos.

El inconveniente principal es que los recursos de hardware suelen ser más limitados. Un ordenador personal normalmente dispone de menos memoria y ~~ASICs~~menos ~~sirven~~potencia de cálculo que un servidor en la nube. Por eso, este enfoque suele utilizarse para ~~casos~~inferencias ~~muy~~de ~~particulares,~~modelos nomedianos ~~tan~~o ~~comunes~~experimentos de entrenamiento ligero.

En muchos entornos educativos o de investigación se utilizan PCs con GPUs de escritorio (por ejemplo tarjetas RTX) para ejecutar modelos open-source o experimentar con proyectos de IA.

Computación en el edge (dispositivos)
La tercera opción es ejecutar los modelos directamente en dispositivos como móviles, sensores, cámaras inteligentes o microcontroladores. Este enfoque se conoce como edge computing.

La idea es que el procesamiento se realice cerca del lugar donde se generan los datos, en lugar de enviarlos a un servidor remoto. Esto tiene varias ventajas importantes.

La primera es la latencia extremadamente baja. Al procesar la información localmente, las respuestas pueden generarse casi en tiempo real, algo fundamental para aplicaciones que requieren decisiones rápidas.

Otra ventaja es la privacidad, ya que los datos sensibles pueden procesarse directamente en el dispositivo sin enviarse a la nube.

Además, los sistemas edge pueden funcionar incluso sin conexión a internet, lo que permite operar en entornos ~~educativos.~~remotos ~~Los~~o ~~aceleradores~~con ~~neuromórficos~~conectividad ~~son aún investigación.~~limitada.

~~Además,~~Sin ~~como~~embargo, ~~muestra~~los ladispositivos ~~comparación~~edge tienen recursos limitados. Suelen disponer de ~~[49],~~menos ~~GPUs~~memoria, ~~(p.ej.~~menos ~~NVIDIA H100/H200) tienen más VRAM~~almacenamiento y ~~mejor~~menor ~~soporte~~capacidad ~~software~~de ~~(CUDA/PyTorch), mientras~~cálculo que ~~TPUs~~los servidores cloud.

Por esta razón, los modelos que se ~~especializan~~ejecutan en ~~cargas~~estos ~~TensorFlow~~dispositivos suelen estar comprimidos u optimizados para funcionar con ~~alta~~menos ~~eficiencia.~~recursos.

~~Por~~

En ~~ejemplo,~~educación, laeste ~~H100~~enfoque ~~entrega~~aparece ~~~150~~en ~~tokens/s~~proyectos que utilizan teléfonos móviles, cámaras inteligentes o microcontroladores (como Arduino o Raspberry Pi) para ~~LLaMA-70B~~ejecutar ~~con~~modelos ~~vLLM~~de reconocimiento de imágenes o sonido directamente en ~~AWS~~el ~~(mayor throughput), mientras que un TPU v6e puede dar ~120 tokens/s con TensorFlow pero con sólo 32 GB de memoria, necesitando 8 chips para LLaMA-70B.~~dispositivo.

Dónde
Tabla ejecutar modelos:comparativa: nube vs local vs edge

~~PlataformasAzureinstalardemandafuertespuntualmente.~~
~~Ejecutar modelos en PCs, laptops~~~~Ventaja en control~~~~Limitación~~~~recursos~~~~sólo~~~~CPUs~~o~~GPU de escritorio (RTX/Pascal/Turing)~~~~RAM que un servidor. A menudo viable para inferencia en modelos medianos o entrenamiento ligero.~~
~~Edge (dispositivos)~~~~: Modelos corriendo en smartphones, IoT o dispositivos embebidos. Ventajas:~~
~~salen del aparato), operación offline. Desventajas:~~ ~~(se~~
Entorno Dónde se ejecuta Ventajas Limitaciones Ejemplos de uso
Nube: Centros ~~como~~de ~~Colab,~~datos ~~AWS,~~remotos Gran ~~facilitan~~potencia lade ~~puesta~~cálculo, enescalabilidad, ~~marcha~~fácil ~~sin~~acceso Costes, ~~nada.~~dependencia Sede ~~escala~~internet, ~~según~~privacidad entrenamiento ~~pero~~de ~~requiere~~modelos ~~conexión y genera costos (por cómputo/tiempo). Útil para~~grandes, demos ~~en clase o proyectos que necesitan~~con GPUs

Local (on-premises): PCs o servidores ~~propios.~~propios Control de ~~datos (privacidad) y~~datos, sin latencia de ~~red.~~red hardware enlimitado investigación, ejecución de ~~hardware:~~modelos ~~típicamente~~open-source

Edge dispositivos y ~~menor~~sensores latencia ~~ultrabaja,~~muy ~~privacidad~~baja, ~~total~~privacidad, ~~(datos~~funciona nooffline recursos muy limitados móviles, usan NPUs con poca memoria). Como indica el caso de Multiverse, comprimir modelos para edge puede democratizar IA («Edge Computing: enable AI on resource-limited devices, reducing cloud reliance»). En educación, esto se ve en proyectos que usan móviles o Arduino/NPU (p.ej.IoT, reconocimiento de imágenes ~~on-device).~~en dispositivos

Entorno	Dónde se ejecuta	Ventajas	Limitaciones	Ejemplos de uso
Nube:	Centros ~~como~~de ~~Colab,~~datos ~~AWS,~~remotos	Gran ~~facilitan~~potencia lade ~~puesta~~cálculo, enescalabilidad, ~~marcha~~fácil ~~sin~~acceso	Costes, ~~nada.~~dependencia Sede ~~escala~~internet, ~~según~~privacidad	entrenamiento ~~pero~~de ~~requiere~~modelos ~~conexión y genera costos (por cómputo/tiempo). Útil para~~grandes, demos ~~en clase o proyectos que necesitan~~con GPUs
Local (on-premises):	PCs o servidores ~~propios.~~propios	Control de ~~datos (privacidad) y~~datos, sin latencia de ~~red.~~red	hardware enlimitado	investigación, ejecución de ~~hardware:~~modelos ~~típicamente~~open-source
Edge	dispositivos y ~~menor~~sensores	latencia ~~ultrabaja,~~muy ~~privacidad~~baja, ~~total~~privacidad, ~~(datos~~funciona nooffline	recursos muy limitados	móviles, usan NPUs con poca memoria). Como indica el caso de Multiverse, comprimir modelos para edge puede democratizar IA («Edge Computing: enable AI on resource-limited devices, reducing cloud reliance»). En educación, esto se ve en proyectos que usan móviles o Arduino/NPU (p.ej.IoT, reconocimiento de imágenes ~~on-device).~~en dispositivos

No existe una única solución válida para todos los casos. La nube ofrece potencia y escalabilidad, los sistemas locales ofrecen control y privacidad, y el edge permite ejecutar inteligencia artificial directamente en dispositivos con respuestas inmediatas.

Por eso, muchos sistemas actuales utilizan arquitecturas híbridas, donde el entrenamiento se realiza en la nube, mientras que la inferencia o el uso final del modelo se ejecuta en equipos locales o dispositivos edge.

Este enfoque combinado permite aprovechar lo mejor de cada entorno y es una de las tendencias más importantes en la infraestructura moderna de inteligencia artificial.

1.5 Infraestructura de IA y ejecución de modelos

Dónde ejecutar modelos: nube, local y edge

DóndeTabla ejecutar modelos:comparativa: nube vs local vs edge

Dónde
Tabla ejecutar modelos:comparativa: nube vs local vs edge