Skip to main content

1.5 Infraestructura de IA y ejecución de modelos

ElCuando entrenamientotrabajamos con inteligencia artificial —especialmente con modelos grandes como redes neuronales o modelos de lenguaje— el hardware se convierte en un elemento fundamental. Los cálculos necesarios para entrenar o ejecutar estos modelos son enormes y larequieren inferenciaprocesadores capaces de realizar millones o incluso billones de operaciones matemáticas por segundo.

Por esta razón, en los últimos años han aparecido distintos tipos de procesadores especializados para IA. Mientras que los ordenadores tradicionales utilizan principalmente CPUs, el desarrollo de la inteligencia artificial ha impulsado el uso de GPUs, TPUs y NPUs, cada uno optimizado para distintos tipos de tareas.

De forma sencilla, podemos pensar en ellos como diferentes “motores” de cálculo diseñados para distintos contextos: centros de datos, investigación, ordenadores personales o dispositivos móviles.

CPU (procesador tradicional)
Las CPUs son los procesadores generales de los ordenadores. Son muy versátiles y pueden ejecutar todo tipo de programas, pero no están optimizadas para los cálculos masivos que requieren los modelos de inteligencia artificial.

Una CPU moderna puede realizar solo unas pocas operaciones simultáneas, mientras que los modelos de IA requieren hardwarerealizar acelerado.miles Ao continuaciónmillones de operaciones matemáticas en paralelo.

Por eso, aunque una CPU puede ejecutar modelos pequeños, no suele ser suficiente para entrenar redes neuronales grandes.

GPU (Graphics Processing Unit)
Las GPUs fueron diseñadas originalmente para gráficos y videojuegos, pero resultaron ser muy eficaces para inteligencia artificial.

Su gran ventaja es el procesamiento paralelo: una GPU puede tener miles de núcleos trabajando al mismo tiempo, lo que permite ejecutar muchas operaciones matemáticas simultáneamente.

Esto las convierte en la herramienta principal para entrenar modelos de deep learning. Hoy en día, la mayoría de los modelos de IA se comparaentrenan losutilizando principales:GPUs en centros de datos o clusters de computación.

Ventajas principales de las GPUs

  • Gran capacidad de cálculo paralelo

  • Compatibilidad con muchos frameworks de IA (PyTorch, TensorFlow, JAX)

  • Ecosistema de software muy desarrollado

  • Flexibilidad para distintos tipos de tareas

Por esta razón, empresas como NVIDIA dominan gran parte del hardware utilizado para entrenar modelos de IA.

TPU (Tensor Processing Unit)
Las TPUs son procesadores diseñados específicamente para inteligencia artificial. Fueron desarrolladas por Google para acelerar operaciones matemáticas típicas de redes neuronales, especialmente multiplicaciones de matrices.

A diferencia de las GPUs, las TPUs utilizan una arquitectura especializada llamada systolic array, que permite realizar cálculos de forma extremadamente eficiente en tareas de aprendizaje profundo.

En algunos casos, las TPUs pueden ofrecer una eficiencia energética mucho mayor que CPUs y GPUs para tareas de inferencia y entrenamiento.

Ventajas principales de las TPUs

  • Muy eficientes en operaciones de redes neuronales

  • Alto rendimiento por consumo energético

  • Integración directa con plataformas como Google Cloud

Sin embargo, suelen ser menos flexibles que las GPUs y están más orientadas a ciertos frameworks.

NPU (Neural Processing Unit)
Las NPUs son procesadores diseñados específicamente para ejecutar modelos de IA en dispositivos pequeños como móviles, ordenadores portátiles o dispositivos IoT.

Se encuentran, por ejemplo, en chips de teléfonos o en procesadores modernos de laptops (como Apple Silicon o Intel AI Boost). Su objetivo principal es ejecutar modelos de IA de forma eficiente directamente en el dispositivo.

Una de sus principales ventajas es la eficiencia energética, ya que consumen mucha menos energía que GPUs o CPUs para tareas de inferencia.

Esto permite ejecutar funciones de inteligencia artificial en tiempo real, como reconocimiento de voz, visión artificial o asistentes inteligentes, sin depender de la nube.

Ventajas principales de las NPUs

  • Muy bajo consumo energético

  • Ideales para dispositivos móviles o edge computing

  • Buen rendimiento para inferencia en tiempo real

Tabla comparativa de tecnologías de hardware para IA

fuerteinferencia en Intel
TecnologíaTipo de hardwaredispositivo Características/usoUso principal Rendimiento relativoVentajas Costo/ejecuciónAccesibilidad educativaEjemplos

GP

 

 

U (NVIDIA)

CPU
ProcesadorOrdenadores paralelo general. Optimizado para matrices (CUDAM, Tensor Cores). Soporta PyTorch, TF.generales H100/A100:Tareas ~1–3 PFLOPSgenerales, (FP16)control pordel unidad. Gran VRAM (80–141GB). Soporta batch grande y redes de atención extensas.sistema Alto:Gran $4–10/h (GPU en nube). Tarjetas PC ~$800–$3000 según modelo.flexibilidad MuyIntel accesibles:Xeon, Colab/KaggleAMD ofrecen GPUs gratis; muchas universidades usan GPUs gaming.EPYC
TPU (Google Cloud)GPU ASICCentros tensorde específico.datos, IntegraciónPCs Entrenamiento conde TensorFlow/JAX.modelos Diseñadode paraIA Gran paralelismo y entrenamientoecosistema de ML en la nube. No disponible fuera de Google Cloud.software v6e:NVIDIA ~2 PFLOPSH100, FP16A100, porAMD chip. Masivo paralelismo (bajo costo por token).Pago por uso: ~$2.70/h por TPU v6e (nube Google). No hay versión local; uso sólo en servicios Google (Cloud TPU o Colab TPU gratuita).Limitado: Colab da pequeñas TPUs gratis; uso educativo real en nube (p.ej. Google Cloud for Education créditos).MI300
NPU / Neural EngineTPU UnidadesInfraestructura IAcloud Entrenamiento chipse inferencia de móviles/PCsmodelos (ex. Apple, Huawei). Muy eficientes energéticamente. Se usan en visión, NLP en dispositivo.grandes Ej.:Muy Appleeficiente ANEpara v5operaciones (A15):de 15.8 TFLOPS (FP16). La primera ANE (A11) fue 0.6 TFLOPS; cada gen crece mucho.tensor Integrado en dispositivos (smartphone/tablet). No se compra separado. Costo = el dispositivo (iPhone/AirPods/Mac con M-series).Alta: Los estudiantes llevan móviles con NPU. Google CoralTPU (Edgev5, TPU)v6, ~$75 es asequible para demos de edge.v7
FPGANPU HardwareMóviles, reconfigurablelaptops, (p.ej.edge Xilinx). Puede diseñarse el circuito específico para IA.devices RendimientoInferencia moderado.local Menosde paralelo que GPU en FP, pero baja latencia.IA Alto de entrada: tarjetas FPGA avanzadas ~miles USD.Bajo: Difícil de programar (Verilog) en cursos básicos; se usa más en investigación/industria. Existen kits educativos (Digilent) pero limitados.
ASIC (EdgeTPU)Chips específicos para IA (ej. Google Edge TPU, USB accelerator). Ultraeficientes para inferencia puntual.Edge TPU (Google): ~4 TOPS/W. Rendimiento limitado a modelos pequeños (p.ej. MobileNet, BERT pequeño).Moderado: Edge TPU USB ~$75. Otros ASIC (Graphcore IPU, Habana) solo en servidores costosos.Bueno: Edge TPUs para IoT / educación (Raspberry Pi + Coral). TPU/ASIC empresariales no disponibles en escuela.
NeuromórficosChips de investigación (Intel Loihi, IBM TrueNorth). Imitan redes neuronales físicas spiking.Aún experimentales. Muy bajo consumo (ej. mil millones de OPS por segundo gastando milivatios).energético Experimental.Apple NoNeural comercialEngine, generalizada. MuyAI bajo:Boost, soloQualcomm en laboratorios especializados.Hexagon

EnLa resumen:infraestructura de hardware es uno de los pilares del desarrollo de la inteligencia artificial. Mientras que las GPUCPUs sonsiguen siendo esenciales para tareas generales, el estándar ampliamente usado (fácilescrecimiento de accederla IA ha impulsado el desarrollo de aceleradores especializados como GPUs, TPUs y NPUs.

Las GPUs dominan el entrenamiento de modelos grandes, las TPUs ofrecen una gran eficiencia en colabs,centros PCsde propiasdatos y las NPUs permiten llevar la inteligencia artificial directamente a dispositivos personales.

En la práctica, los sistemas modernos suelen combinar varios de estos componentes, creando arquitecturas heterogéneas capaces de aprovechar lo mejor de cada tipo de procesador.

Dónde ejecutar modelos: nube, local y edge

Cuando trabajamos con modelos de inteligencia artificial, una de las decisiones importantes es dónde se van a ejecutar. En la práctica existen tres opciones principales: usar infraestructura en la nube, ejecutarlos en equipos propios o nubeshacer académicas).que Lasfuncionen TPU ofrecen mayor eficiencia por costedirectamente en cargasdispositivos. Cada opción tiene ventajas y limitaciones, y suele elegirse en función del tipo de inferencia,proyecto, perolos sólorecursos estándisponibles y el nivel de control que se necesita sobre los datos.

Computación en la nube
La nube es probablemente la forma más sencilla de empezar a trabajar con inteligencia artificial. Plataformas como Google CloudColab, (aunqueAWS Colabo daAzure accesopermiten limitado)ejecutar modelos sin instalar nada en el ordenador. El usuario simplemente abre un entorno en línea y puede utilizar recursos potentes, como GPUs o grandes cantidades de memoria.

La principal ventaja de la nube es que permite escalar fácilmente el hardware según la necesidad. LosSi NPUsun sonproyecto útilesnecesita mucha potencia de cálculo, se pueden utilizar servidores muy potentes durante unas horas o días. Esto es especialmente útil para IAentrenar modelos grandes o para proyectos que requieren GPUs avanzadas.

Otra ventaja es la facilidad de uso: muchas plataformas ya incluyen entornos de programación, bibliotecas y datasets preparados para trabajar.

Sin embargo, también tiene algunas limitaciones. La nube depende de una conexión a internet y normalmente implica costes asociados al tiempo de cálculo o al uso de recursos. Además, enviar datos a servidores externos puede generar preocupaciones relacionadas con la privacidad.

En educación, la nube es muy útil para demos en móvilesclase, yexperimentos dispositivoso embebidos,proyectos mejorandopuntuales que necesitan hardware potente.

Infraestructura local (on-premises)
Otra posibilidad es ejecutar los modelos directamente en ordenadores propios, como PCs, portátiles o servidores del centro educativo o de la empresa. A esto se le llama infraestructura local o on-premises.

La principal ventaja de este enfoque es el control total sobre los datos. Como la información no sale del equipo o del servidor local, es más fácil mantener la privacidad y energía.cumplir FPGAspolíticas de seguridad.

También se evita la latencia de red, es decir, el tiempo que tarda la información en viajar a servidores remotos.

El inconveniente principal es que los recursos de hardware suelen ser más limitados. Un ordenador personal normalmente dispone de menos memoria y ASICsmenos sirvenpotencia de cálculo que un servidor en la nube. Por eso, este enfoque suele utilizarse para casosinferencias muyde particulares,modelos nomedianos tano comunesexperimentos de entrenamiento ligero.

En muchos entornos educativos o de investigación se utilizan PCs con GPUs de escritorio (por ejemplo tarjetas RTX) para ejecutar modelos open-source o experimentar con proyectos de IA.

Computación en el edge (dispositivos)
La tercera opción es ejecutar los modelos directamente en dispositivos como móviles, sensores, cámaras inteligentes o microcontroladores. Este enfoque se conoce como edge computing.

La idea es que el procesamiento se realice cerca del lugar donde se generan los datos, en lugar de enviarlos a un servidor remoto. Esto tiene varias ventajas importantes.

La primera es la latencia extremadamente baja. Al procesar la información localmente, las respuestas pueden generarse casi en tiempo real, algo fundamental para aplicaciones que requieren decisiones rápidas.

Otra ventaja es la privacidad, ya que los datos sensibles pueden procesarse directamente en el dispositivo sin enviarse a la nube.

Además, los sistemas edge pueden funcionar incluso sin conexión a internet, lo que permite operar en entornos educativos.remotos Loso aceleradorescon neuromórficosconectividad son aún investigación.limitada.

Además,Sin comoembargo, muestralos ladispositivos comparaciónedge tienen recursos limitados. Suelen disponer de [49],menos GPUsmemoria, (p.ej.menos NVIDIA H100/H200) tienen más VRAMalmacenamiento y mejormenor soportecapacidad softwarede (CUDA/PyTorch), mientrascálculo que TPUslos servidores cloud.

Por esta razón, los modelos que se especializanejecutan en cargasestos TensorFlowdispositivos suelen estar comprimidos u optimizados para funcionar con altamenos eficiencia.recursos.

Por

En ejemplo,educación, laeste H100enfoque entregaaparece ~150en tokens/sproyectos que utilizan teléfonos móviles, cámaras inteligentes o microcontroladores (como Arduino o Raspberry Pi) para LLaMA-70Bejecutar conmodelos vLLMde reconocimiento de imágenes o sonido directamente en AWSel (mayor throughput), mientras que un TPU v6e puede dar ~120 tokens/s con TensorFlow pero con sólo 32 GB de memoria, necesitando 8 chips para LLaMA-70B.dispositivo.

Dónde

Tabla ejecutar modelos:comparativa: nube vs local vs edge

  • PlataformasAzureinstalardemandafuertespuntualmente.
  • Ejecutar modelos en PCs, laptopsVentaja en controlLimitaciónrecursossóloCPUsoGPU de escritorio (RTX/Pascal/Turing)RAM que un servidor. A menudo viable para inferencia en modelos medianos o entrenamiento ligero.
  • Edge (dispositivos): Modelos corriendo en smartphones, IoT o dispositivos embebidos. Ventajas:
  • salen del aparato), operación offline. Desventajas: (se
    EntornoDónde se ejecutaVentajasLimitacionesEjemplos de uso
    Nube: Centros comode Colab,datos AWS,remotos Gran facilitanpotencia lade puestacálculo, enescalabilidad, marchafácil sinacceso Costes, nada.dependencia Sede escalainternet, segúnprivacidad entrenamiento perode requieremodelos conexión y genera costos (por cómputo/tiempo). Útil paragrandes, demos en clase o proyectos que necesitancon GPUs
    Local (on-premises): PCs o servidores propios.propios Control de datos (privacidad) ydatos, sin latencia de red.red hardware enlimitado investigación, ejecución de hardware:modelos típicamenteopen-source
    Edge dispositivos y menorsensores latencia ultrabaja,muy privacidadbaja, totalprivacidad, (datosfunciona nooffline recursos muy limitados móviles, usan NPUs con poca memoria). Como indica el caso de Multiverse, comprimir modelos para edge puede democratizar IA («Edge Computing: enable AI on resource-limited devices, reducing cloud reliance»). En educación, esto se ve en proyectos que usan móviles o Arduino/NPU (p.ej.IoT, reconocimiento de imágenes on-device).en dispositivos
  • No existe una única solución válida para todos los casos. La nube ofrece potencia y escalabilidad, los sistemas locales ofrecen control y privacidad, y el edge permite ejecutar inteligencia artificial directamente en dispositivos con respuestas inmediatas.

    Por eso, muchos sistemas actuales utilizan arquitecturas híbridas, donde el entrenamiento se realiza en la nube, mientras que la inferencia o el uso final del modelo se ejecuta en equipos locales o dispositivos edge.

    Este enfoque combinado permite aprovechar lo mejor de cada entorno y es una de las tendencias más importantes en la infraestructura moderna de inteligencia artificial.