Redes Neuronales y Deep Learning — Fundamentos de IA y LLMs

La Neurona Artificial

Una neurona biológica recibe señales a través de dendritas, las procesa en el cuerpo celular y dispara una salida por el axón. Una neurona artificial hace algo muy similar: toma múltiples entradas, multiplica cada una por un peso, agrega un sesgo (bias), y pasa el resultado por una función de activación.

output = activation(w1*x1 + w2*x2 + ... + wn*xn + bias)

La función de activación introduce no-linealidad — sin ella, apilar capas sería matemáticamente equivalente a una sola capa. Las funciones de activación más comunes incluyen ReLU (max(0, x)), sigmoid y tanh.

De Perceptrones a Redes Profundas

Una sola neurona (perceptrón) solo puede aprender fronteras lineales. Apila neuronas en capas y obtienes una red neuronal. Apila muchas capas y obtienes una red neuronal profunda — de ahí "deep learning."

Capa de entrada: Recibe datos crudos (píxeles, palabras, números)
Capas ocultas: Extraen características cada vez más abstractas
Capa de salida: Produce la predicción final

Una red con 2-3 capas ocultas puede aproximar prácticamente cualquier función matemática. Los LLMs modernos usan docenas a más de cien capas.

Backpropagation: Cómo Aprenden las Redes

Entrenar una red neuronal significa encontrar los pesos correctos. Backpropagation es el algoritmo que lo hace posible:

Forward pass: La entrada fluye por la red, produciendo una predicción
Cálculo de pérdida: Comparar la predicción con la respuesta correcta usando una función de pérdida
Backward pass: Calcular cuánto contribuyó cada peso al error (usando la regla de la cadena del cálculo)
Actualización de pesos: Ajustar los pesos en la dirección que reduce el error (gradient descent)

Repite esto millones de veces con el dataset de entrenamiento, y la red gradualmente aprende a hacer predicciones precisas.

Arquitecturas Clave

CNNs (Redes Neuronales Convolucionales): Especializadas en datos tipo grilla (imágenes). Usan pequeños filtros deslizantes que detectan bordes, texturas y formas. Dominaron la visión por computadora de 2012 a 2020.

RNNs (Redes Neuronales Recurrentes): Diseñadas para datos secuenciales (texto, audio). Procesan entradas una a la vez mientras mantienen un estado oculto como "memoria." LSTMs y GRUs mejoraron las RNNs básicas al resolver el problema del gradiente desvanecido.

Transformers: Reemplazaron a las RNNs para la mayoría de tareas de lenguaje al procesar todos los tokens en paralelo usando mecanismos de atención. Los cubriremos en detalle en la siguiente lección.

Por Qué Importa la Profundidad

Cada capa en una red profunda aprende a representar datos en un nivel diferente de abstracción. En una red de imágenes: las capas tempranas detectan bordes, las capas intermedias detectan formas, y las capas profundas detectan objetos. En un modelo de lenguaje: las capas tempranas capturan sintaxis, las intermedias capturan semántica, y las profundas capturan patrones de razonamiento. Esta jerarquía de representaciones aprendidas es lo que le da al deep learning su poder.