Transformers y el Mecanismo de Atención — Fundamentos de IA y LLMs

El Problema con las Secuencias

Antes de los transformers, las RNNs procesaban texto un token a la vez. Esto creaba dos problemas críticos: procesamiento secuencial (lento, no se puede paralelizar) y dependencias de largo alcance (la información de tokens tempranos se desvanece a medida que crece la secuencia). La atención fue la solución.

Atención: La Innovación Central

El mecanismo de atención responde una pregunta simple: al procesar una palabra, ¿en cuáles otras palabras de la oración debo enfocarme?

Por ejemplo, en "El gato se sentó en la alfombra porque él estaba cansado" — ¿a qué se refiere "él"? La atención permite que el modelo aprenda que "él" debe atender fuertemente a "gato" en lugar de "alfombra."

Matemáticamente, la atención computa tres vectores para cada token:

Query (Q): "¿Qué estoy buscando?"
Key (K): "¿Qué contengo?"
Value (V): "¿Qué información proporciono?"

El puntaje de atención entre dos tokens es el producto punto del Query de un token con el Key de otro, escalado y pasado por softmax. Este puntaje determina cuánto del Value de cada token se mezcla en la salida.

Self-Attention y Multi-Head Attention

Self-attention significa que cada token atiende a cada otro token en la misma secuencia. Esto permite a los transformers capturar relaciones independientemente de la distancia — "él" puede atender a "gato" ya sea que estén a 3 o 300 tokens de distancia.

Multi-head attention ejecuta varias computaciones de atención en paralelo, cada una con diferentes pesos aprendidos. Diferentes cabezas aprenden a enfocarse en diferentes tipos de relaciones — una cabeza podría rastrear dependencias sintácticas, otra correferencia, otra similaridad semántica.

La Arquitectura Transformer

El paper original de 2017 "Attention Is All You Need" describió una arquitectura encoder-decoder:

Encoder: Procesa la secuencia de entrada, construyendo representaciones contextuales ricas
Decoder: Genera la secuencia de salida, atendiendo tanto a sus propias salidas previas como a las representaciones del encoder

Los LLMs modernos como GPT usan solo la parte decoder (generación autoregresiva). Modelos como BERT usan solo el encoder (comprensión bidireccional). T5 y los modelos de traducción originales usan ambos.

Por Qué Ganaron los Transformers

Paralelización: A diferencia de las RNNs, todos los tokens se procesan simultáneamente durante el entrenamiento
Atención de largo alcance: Sin pérdida de información por distancia
Escalabilidad: El rendimiento mejora predeciblemente con más datos y parámetros
Transfer learning: Los transformers pre-entrenados se adaptan a nuevas tareas con mínimo fine-tuning

La arquitectura transformer no ha cambiado fundamentalmente desde 2017 — lo que cambió es la escala. GPT-3 tiene 175 mil millones de parámetros. La arquitectura funciona tan bien que la pregunta principal de investigación se convirtió en "¿qué tan grande podemos hacerlo?"

Para ver un transformer en acción, explora GPT-Visual — una visualización 3D interactiva que te permite rastrear cómo los tokens fluyen a través de cabezas de atención, proyecciones y capas feed-forward.