Skip to main content

1.4 Entendiendo las redes neuronales, Deep Learning

1.4 Aprender con muchas capas

Deep Learning (DL): cuando las máquinas aprenden representaciones complejas

https://miro.medium.com/v2/resize%3Afit%3A1156/1%2AToPT8jnb5mtnikmiB42hpQ.png
https://serokell.io/files/9w/9wrzg5vi.Deep_Learning_in_Computer_Vision_pic2.png
https://developer-blogs.nvidia.com/wp-content/uploads/2022/07/Fig-3.png

Del Machine Learning al Deep Learning: una evolución lógica

En los capítulos anteriores hemos visto cómo aprenden las máquinas y qué entendemos por Machine Learning: aprender a partir de datos siguiendo distintos enfoques (supervisado, no supervisado, semisupervisado y por refuerzo). El Deep Learning (DL) no cambia esa lógica, pero la amplifica.

La diferencia fundamental no está en qué se aprende, sino en cómo. El Deep Learning utiliza redes neuronales con muchas capas, capaces de aprender representaciones cada vez más complejas sin que una persona tenga que indicar explícitamente qué características son importantes. En lugar de decirle a la máquina “fíjate en esto”, se le dan datos y se deja que descubra por sí misma los niveles de información relevantes.

Por eso, el Deep Learning ha sido decisivo en ámbitos donde la complejidad del dato —texto, imagen, audio o vídeo— hacía imposible escribir reglas manuales.


Aprender a interpretar: una analogía humana clave

Volvemos a una analogía muy potente desde el punto de vista educativo. Cuando una persona nace ciega y recupera la visión en la edad adulta, sus ojos comienzan a funcionar, pero su cerebro no sabe interpretar lo que recibe. No reconoce objetos ni caras; ve estímulos sin significado. Solo tras un largo proceso de aprendizaje empieza a construir una interpretación del mundo visual.

El Deep Learning funciona de forma muy similar. Una imagen no es “un perro”, un audio no es “una voz” y un texto no es “una idea”. Para la máquina, todo son números. Las primeras capas de una red neuronal profunda aprenden patrones simples; las siguientes, combinaciones más complejas; y las últimas, estructuras de alto nivel. El significado no está dado, se construye a partir del aprendizaje progresivo.


Redes neuronales profundas: aprender por niveles

Una red neuronal profunda transforma la información capa a capa. Cada capa aprende algo distinto y lo pasa a la siguiente. Cuantas más capas, más compleja puede ser la representación aprendida.

En educación, el paralelismo es claro: no se pasa directamente de datos a comprensión profunda. El aprendizaje humano también es gradual. El Deep Learning imita esa progresión, aunque sin conciencia ni comprensión real.


Modelos reales de Deep Learning según el tipo de dato

Uno de los grandes valores del Deep Learning es que la misma idea funciona para distintos tipos de información, cambiando el modelo concreto. Veamos algunos ejemplos reales y conocidos, aplicables a diferentes ámbitos.


Deep Learning aplicado al texto

En el procesamiento del lenguaje natural, el Deep Learning se apoya en modelos basados en transformers, capaces de manejar el contexto y las relaciones entre palabras a gran escala.

Ejemplos de modelos reales:

  • GPT (familia de modelos generativos de lenguaje)

  • BERT

  • RoBERTa

  • T5

  • LLaMA

  • Mistral

Estos modelos se utilizan para:

  • generar textos,

  • resumir documentos,

  • responder preguntas,

  • analizar sentimientos,

  • clasificar y corregir textos.

Aunque puedan parecer “inteligentes”, su funcionamiento se basa en predecir la siguiente palabra más probable a partir de enormes cantidades de texto previamente analizado.


Deep Learning aplicado al audio

En el ámbito del audio, el Deep Learning ha revolucionado el reconocimiento y la generación de voz. Las redes neuronales profundas aprenden a transformar ondas sonoras en representaciones lingüísticas.

Ejemplos de modelos reales:

  • Whisper (transcripción de audio a texto)

  • Wav2Vec

  • DeepSpeech

  • Conformer

  • Tacotron

  • WaveNet

Estos modelos permiten:

  • transcribir clases grabadas,

  • crear subtítulos automáticos,

  • generar voz sintética,

  • mejorar la accesibilidad educativa.

Aquí, las capas iniciales trabajan con frecuencias y ritmos; las posteriores, con fonemas y palabras completas.


Deep Learning aplicado a imagen

En visión artificial, el Deep Learning se apoya en redes convolucionales y modelos visuales profundos que aprenden a reconocer patrones espaciales.

Ejemplos de modelos reales:

  • ResNet

  • VGG

  • Inception

  • EfficientNet

  • YOLO

  • Vision Transformer (ViT)

Estos modelos se utilizan para:

  • reconocimiento de objetos y personas,

  • análisis de imágenes médicas o educativas,

  • detección de gestos,

  • clasificación y etiquetado automático de imágenes.

Las primeras capas detectan bordes y colores; las últimas reconocen objetos completos.


Deep Learning aplicado a vídeo

El vídeo añade una dimensión adicional: el tiempo. Los modelos de Deep Learning para vídeo combinan análisis de imagen con secuencias temporales.

Ejemplos de modelos reales:

  • I3D

  • SlowFast

  • C3D

  • TimeSformer

  • Video Swin Transformer

Estos modelos permiten:

  • analizar prácticas grabadas,

  • detectar acciones o comportamientos,

  • estudiar movimientos y posturas,

  • indexar grandes repositorios audiovisuales.

En educación, esto abre posibilidades en FP, educación física, artes escénicas o formación técnica.


Deep Learning y los tipos de aprendizaje ya estudiados

Conviene recordar que el Deep Learning no es un tipo de aprendizaje distinto, sino una tecnología que puede entrenarse siguiendo los enfoques vistos en capítulos anteriores.

Puede aprender:

  • de forma supervisada (con ejemplos etiquetados),

  • no supervisada (descubriendo estructuras),

  • semisupervisada,

  • o mediante aprendizaje por refuerzo.

El caso de AlphaGo, desarrollado por DeepMind, combina redes neuronales profundas con aprendizaje por refuerzo para alcanzar un rendimiento extraordinario. No entiende el juego, pero ha aprendido estrategias extremadamente complejas.


Deep Learning en educación: potencial y prudencia

El Deep Learning permite trabajar con textos largos, audio, imagen y vídeo, algo impensable hace pocos años. En educación, esto abre la puerta a análisis más ricos y a una mayor accesibilidad.

Sin embargo, estos modelos son difíciles de explicar. Funcionan muy bien, pero no siempre sabemos por qué. Por eso, su uso educativo debe ser siempre complementario, nunca decisorio por sí solo.


Herramientas y entornos donde aparece el Deep Learning (solo referencia)

El Deep Learning está presente, directa o indirectamente, en entornos y herramientas como:

  • TensorFlow

  • PyTorch

  • Keras

  • Hugging Face

  • Google Colab

  • Teachable Machine

  • AutoML

No es imprescindible dominarlas, pero sí entender qué tipo de aprendizaje hay detrás.


Conclusión

El Deep Learning ha demostrado que las máquinas pueden aprender representaciones extremadamente complejas a partir de datos. Pero también nos recuerda una lección clave para la educación:

Las máquinas aprenden patrones profundos; las personas aprenden significados profundos.

El Deep Learning amplía las capacidades técnicas.
La educación define el sentido.