LLMs: GPT, Claude y Más Allá — Fundamentos de IA y LLMs

Qué Hace "Grande" a un Modelo de Lenguaje

Un modelo de lenguaje grande (LLM) es un transformer entrenado con conjuntos masivos de texto para predecir el siguiente token. Lo "grande" se refiere al conteo de parámetros — el número de pesos aprendibles en la red.

| Modelo | Parámetros | Datos de Entrenamiento | |--------|-----------|----------------------| | GPT-2 (2019) | 1.5B | 40GB de texto | | GPT-3 (2020) | 175B | 570GB de texto | | GPT-4 (2023) | ~1.8T (estimado) | ~13T tokens | | Llama 3 (2024) | 8B-405B | 15T tokens |

Las leyes de escalamiento (Kaplan et al., 2020) mostraron que el rendimiento del modelo mejora predeciblemente con tres factores: más parámetros, más datos y más cómputo. Esta idea impulsó el enfoque de "más grande es mejor" que produjo los modelos frontier de hoy.

El Pipeline de Entrenamiento

El entrenamiento de LLMs ocurre en etapas:

1. Pre-entrenamiento: El modelo aprende lenguaje prediciendo el siguiente token a través de trillones de tokens de internet, libros y código. Esta es la etapa costosa — el pre-entrenamiento de GPT-4 supuestamente costó más de $100 millones en cómputo.

2. Fine-Tuning Supervisado (SFT): El modelo pre-entrenado se ajusta con pares curados de pregunta-respuesta para aprender a seguir instrucciones en vez de solo predecir texto.

3. RLHF (Aprendizaje por Refuerzo con Feedback Humano): Evaluadores humanos comparan múltiples salidas del modelo y las clasifican por calidad. Un modelo de recompensa aprende estas preferencias, y el LLM se optimiza para producir salidas que el modelo de recompensa califique alto.

La combinación de SFT + RLHF es lo que transforma un predictor de texto crudo en un asistente útil. Sin estos pasos, el modelo solo autocompletaría texto sin entender instrucciones.

Las Principales Familias de Modelos

OpenAI (serie GPT): Pioneros del enfoque LLM decoder-only. GPT-4 y GPT-5 son multimodales (texto + imágenes). Conocidos por fuerte coding y razonamiento.

Anthropic (Claude): Enfocados en seguridad, honestidad e inocuidad a través de Constitutional AI (RLAIF). Claude 4 introdujo capacidades agénticas sostenidas. Conocido por análisis matizado y manejo de contexto largo.

Google (Gemini): Nativamente multimodal (entrenado en texto, imágenes, audio, video juntos). Integración estrecha con el ecosistema de Google.

Meta (Llama): Modelos de pesos abiertos que democratizaron el acceso a LLMs. Llama 3 405B compite con modelos propietarios. La comunidad puede hacer fine-tune y desplegar libremente.

Capacidades Emergentes

A medida que los modelos escalan, desarrollan habilidades inesperadas no presentes en versiones más pequeñas:

Aprendizaje en contexto: Aprender de ejemplos en el prompt sin actualizar pesos
Razonamiento chain-of-thought: Resolver problemas de múltiples pasos pensando a través de ellos
Generación de código: Escribir programas funcionales desde descripciones en lenguaje natural
Uso de herramientas: Aprender a llamar APIs y herramientas externas para cumplir tareas

Estas habilidades emergentes son por qué los LLMs se sienten cualitativamente diferentes de sistemas de IA anteriores. Sugieren que la inteligencia puede surgir de la escala y el aprendizaje en vez de la programación explícita.

El Debate Abierto vs Cerrado

Una tensión crucial en el ecosistema de LLMs: ¿deberían los modelos más poderosos ser abiertos (Meta, Mistral) o cerrados (OpenAI, Anthropic)? Los modelos abiertos permiten innovación y transparencia pero también bajan las barreras para el mal uso. Los modelos cerrados permiten controles de seguridad pero concentran el poder. Este debate moldea la política de IA a nivel mundial.