El modelo más inteligente del futuro sabrá menos que tú

Y por qué eso cambia todo lo que creemos sobre IA: Análisis de una de las entrevistas más importante del año sobre el futuro real de la inteligencia artificial

oct 22, 2025

TL;DR:

Los modelos futuros serán 1000x más pequeños pero más inteligentes
El problema no es falta de datos, es exceso de basura
La carrera real es por curación, no por escala
AGI llegará gradualmente, no como singularidad

La predicción que nadie vio venir

En una entrevista de dos horas y media con Dwarkesh Patel, Andrej Karpathy —ex director de IA en Tesla, miembro fundador de OpenAI, y una de las pocas voces en el campo sin agenda comercial que defender— hizo una predicción que contradice todo lo que la industria está construyendo: En 20 años, el modelo más inteligente tendrá solo mil millones de parámetros.

Para poner esto en perspectiva: GPT-4 tiene aproximadamente 1.8 trillones de parámetros. Llama 3 (en su versión de 70B) tiene 70 mil millones. La industria ha apostado todo a la escala. “Más grande es mejor” ha sido el mantra desde 2018. Y ahora Karpathy dice que el futuro es 1,000 veces más pequeño.

¿Está loco? ¿O hemos estado ciegos?

La clave está en una distinción que pocos han notado: estos modelos gigantes están haciendo “trabajo de memoria” en lugar de “trabajo cognitivo”. Son enciclopedias con esteroides cuando deberían ser matemáticos. Y esa confusión está costándonos años de progreso real.

La verdad sucia: El internet es basura

Hay una ilusión cómoda que todos compartimos: GPT-4 fue entrenado en “todo el conocimiento humano en internet”. Cuando Karpathy describe la realidad, es brutal: “Cuando miras un documento aleatorio del dataset de pre-training en un lab de frontera, es basura total. No sé ni cómo funciona esto. Son stock tickers, símbolos, enormes cantidades de slop de todos los rincones del internet. No es tu artículo de Wall Street Journal - eso es extremadamente raro.”

Esta es la verdad sucia detrás de los modelos de trillones de parámetros: no son grandes porque sean inteligentes. Son grandes porque están tratando de comprimir un vertedero.

Llama 3 procesó 15 trillones de tokens. Con 70 mil millones de parámetros, eso significa 0.07 bits de información por token. Es una compresión masiva, sí, pero de qué exactamente? La mayor parte es ruido que el modelo debe “memorizar” para encontrar las pepitas de oro escondidas en la basura.

Aquí está la oportunidad que pocos ven: “Hay una enorme cantidad de ganancias por capturar porque el internet es terrible”. El ganador de la próxima década no será quien entrene el modelo más grande, sino quien cure los datos más limpios.

Memorizar es el enemigo de pensar

Esta obsesión por comprimir todo el internet tiene una consecuencia inesperada: los modelos se vuelven demasiado buenos en exactamente la habilidad equivocada.

Karpathy hace una observación que suena paradójica hasta que lo piensas profundamente: los modelos son demasiado buenos memorizando, y eso es malo. Pueden memorizar secuencias completamente aleatorias en una o dos iteraciones. Ningún humano puede leer una secuencia de números random una vez y recitarla. “Eso es una característica, no un bug”, dice Karpathy.

¿Por qué? Porque cuando no puedes memorizar, te ves forzado a encontrar patrones generalizables. Los humanos somos malos memorizando, y eso nos fuerza a “ver el bosque por los árboles”. Los LLMs, en contraste, tienen memoria fotográfica perfecta - y eso los distrae.

Piensa en la diferencia entre una enciclopedia y un matemático. La enciclopedia conoce cada fórmula pero no entiende ninguna. El matemático puede olvidar la fórmula exacta de una integral, pero puede re-derivarla desde primeros principios. La inteligencia está en la estructura, no en el almacenamiento.

El Core Cognitivo: Menos enciclopedia, más Sherlock Holmes

Esta es la visión del “Core Cognitivo” de Karpathy: un modelo de pocos miles de millones de parámetros que sacrifica al máximo el conocimiento enciclopédico por capacidad pura. No sabe que el reinado de William el Conquistador terminó el 9 de septiembre de 1087, pero reconoce vagamente el nombre y puede buscar la fecha.

No es una base de datos. Es un motor de razonamiento que sabe que no sabe.

El colapso silencioso

Hay un fenómeno que pocos fuera de los labs de frontera discuten abiertamente: Model Collapse. Cuando los LLMs generan datos y luego se entrenan sobre esos datos, “colapsan silenciosamente” - cada muestra individual se ve razonable, pero la distribución completa pierde diversidad catastróficamente.

Karpathy da un ejemplo simple: “Ve a ChatGPT y pídele un chiste. Hazlo 10 veces. Solo conoce como tres chistes. Están colapsados.”

En model collapse, los eventos probables “envenenan” el dataset. Los eventos improbables - las “colas” de la distribución que son raras pero importantes - se encogen hasta desaparecer. El modelo se vuelve cada vez más genérico, más predecible, menos creativo. Generación tras generación, pierde lo que lo hacía interesante.

¿Por qué sucede esto? Porque los LLMs son máquinas de compresión optimizadas para predecir lo más probable. No mantienen entropía. No buscan diversidad. Colapsan hacia el centro de la distribución.

Y aquí está el giro: Karpathy sugiere que los humanos también colapsan con el tiempo. “Los niños no han “overfitteado” todavía. Dirán cosas que te sorprenden porque puedes ver de dónde vienen, pero no son las cosas que la gente dice. Los adultos estamos colapsados. Revisitamos los mismos pensamientos, decimos más y más las mismas cosas, las learning rates bajan, el colapso continúa empeorando.”

La pregunta clave acá es: ¿Cómo construyes sistemas que mantengan la creatividad de un niño sin la rigidez de un adulto?

Por qué reinforcement learning (RL) es terrible (y todo lo demás es peor)

Karpathy tiene una frase muy potente para describir el reinforcement learning actual: “estás succionando supervisión a través de una bombilla”.

Imagina que aprendes matemáticas así: Resuelves 1,000 problemas de diferentes formas. Al final, alguien te dice “obtuviste 734 correctos”. Y basándose en ese único número, se supone que debes saber qué pasos específicos en cuáles de tus 1,000 intentos fueron buenos o malos.

Eso es RL. Generas cientos de trayectorias complejas - cada una podría ser minutos de razonamiento. Al final obtienes un solo bit: “correcto” o “incorrecto”. Y luego tomas ese bit y lo propagas hacia atrás a través de toda la trayectoria, asumiendo que cada token que condujo a la respuesta correcta fue la cosa correcta por hacer.

El problema: “Puedes haber ido por callejones incorrectos hasta que llegaste a la solución correcta. Cada una de esas cosas incorrectas que hiciste, mientras llegues a la solución correcta, se ponderará como ‘haz más de esto’. Es terrible. Es ruido.”

Los humanos nunca aprendemos así. Cuando resuelves un problema, no simplemente ves “correcto/incorrecto” al final. Haces una revisión compleja: “Esta parte la hice bien, esta otra fue un rodeo innecesario, aquí debí haber probado otra cosa.” Reflexionamos. Los LLMs no tienen nada equivalente.

El problema de los jueces: La solución obvia es “process-based supervision” - dar feedback en cada paso. Pero cuando usas un LLM como juez para dar ese feedback, el modelo de entrenamiento encuentra “ejemplos adversariales”. Karpathy cuenta cómo un modelo comenzó a escribir soluciones que terminaban en “dhdhdhdh” - completo sinsentido que rompía al “LLM juez” y obtenía 100% de reward.

No es prompt injection sofisticado. Es simplemente que el juez tiene trillones de parámetros, y por lo tanto un espacio infinito de vulnerabilidades. Cuando entrenas contra él, encuentras los exploits.

Los tres saltos que faltan

Karpathy sugiere que la industria ha tenido dos grandes breakthroughs: (1) Imitation learning - entrenar modelos para imitar conversaciones humanas, y (2) Reinforcement learning - hacerlos optimizar para recompensas. Pero dice explícitamente: “Necesitamos tres o cuatro o cinco más, algo así”.

Aquí están los que identifica (y que valen una fortuna para quien los resuelva):

Reflection y self-review: Las máquinas que se critican a sí mismas

“Los humanos hacen un proceso de revisión complicado cuando encuentran una solución: ‘OK, creo que estas partes las hice bien, estas otras no tanto, probablemente debería hacer esto o aquello’. Piensan sobre las cosas. No hay nada en los LLMs actuales que haga esto.”

La oportunidad: sistemas que no solo generan respuestas, sino que las critican, las revisan, generan datos sintéticos de sus propios errores, y se entrenan iterativamente.

Karpathy anticipa que para superar el plateau actual “necesitamos sistemas que no solo generen output sino que reflexionen: revisen sus propias salidas, se auto-corrijan, generen entrenamiento sintético por sí mismos”.

Memory consolidation: El equivalente de soñar

Karpathy hace una analogía profunda: “Cuando estoy despierto, estoy construyendo una ventana de contexto de cosas que pasan durante el día. Pero cuando voy a dormir, algo mágico sucede donde no creo que esa ventana de contexto se quede. Hay algún proceso de destilación hacia los pesos de mi cerebro.”

Los LLMs actuales no tienen esto. Cada vez que los inicias con cero tokens en la ventana, siempre están empezando desde cero. No hay fase de consolidación. No hay sueños. No hay destilación de la experiencia del día hacia una memoria de largo plazo.

Esto podría verse como “tomar lo que pasó, analizarlo obsesivamente, pensar sobre ello, hacer generación de datos sintéticos y destilarlo de vuelta a los pesos - tal vez incluso tener una red neuronal específica por persona, tal vez una LoRA“.

Culture y multi-agent systems: Cuando las máquinas escriben para máquinas

Karpathy señala dos ideas poderosas en el reino multi-agente que nadie ha reclamado todavía: cultura (LLMs escribiendo libros para otros LLMs) y self-play (como AlphaGo - un LLM creando problemas cada vez más difíciles para que otro LLM entrene).

La pregunta provocativa: “¿Por qué un LLM no puede escribir un libro para otros LLMs? Sería genial. ¿Por qué otros LLMs no pueden leer el libro de este LLM y estar inspirados o sorprendidos por él?”

No existe aún. Y la razón, según Karpathy, es simple: “Los modelos actuales todavía se sienten como estudiantes de kinder o primaria. Son niños savant con memoria perfecta de todo, pero todavía no saben realmente qué están haciendo”.

La década invisible

Entonces, ¿cuándo sucede todo esto?

La respuesta de Karpathy es la más contraria de todas: La AGI llegará en una década, pero no lo notarás en el GDP. “No puedes encontrar las computadoras en el GDP. A pesar de transformar cada industria, la invención del microchip apenas aparece en los datos macroeconómicos.”

Su punto: la tecnología se difunde lentamente. Sus efectos son reales pero absorbidos en el ritmo constante de crecimiento del ~2%. La IA probablemente seguirá el mismo patrón - un acelerante del exponencial existente en lugar de una subida súbita.

Esto contradice la narrativa popular de “singularidad” o “explosión de inteligencia”. Karpathy no ve una apocalipsis ni una singularidad, sólo “la construcción lenta de una capa cognitiva a través del mundo: humanos y máquinas co-construyendo sistemas que piensan, recuerdan y reflexionan juntos”.

Por qué tomará tanto tiempo: La lección de Tesla fue humillante. En 2013, Karpathy tuvo un paseo perfecto en Waymo en Palo Alto. El demo funcionó. Es 2025, y todavía estamos debugeando self-driving a escala. “La brecha demo-producto es enorme cuando el costo de falla es alto”.

Cada “nine” de confiabilidad - de 90% a 99% a 99.9% - requiere aproximadamente la misma montaña de esfuerzo. “En cinco años en Tesla pasamos por tal vez dos o tres nines, y todavía faltan más”.

Los agentes de IA tendrán el mismo problema. Los demos que funcionan 90% del tiempo se ven mágicos. Los sistemas listos para deployment que deben funcionar 99.999% del tiempo están a años de distancia. Cerrar el 10% final es donde comienza la ingeniería real - y los años reales.

Lo que esto significa (y por qué importa)

Tres takeaways que importan:

1. La carrera no es por escala, es por calidad

Los próximos unicornios no entrenarán los modelos más grandes. Curarán los mejores datos. Karpathy especula que “un cognitive core con tal vez ~1 mil millones de parámetros entrenado en datos de alta calidad podría sentirse ya muy inteligente”.

La oportunidad: sé el curador, no el minero.

2. Olvida AGI, construye herramientas

Como escribe Saanya Ojha: “La oportunidad es aumentar personas con ‘trajes de Iron Man’ de IA, no reemplazarlas con robots de Iron Man”. Cursor y Perplexity son ejemplos tempranos: empaquetan contexto, orquestan múltiples llamadas a LLM, dan GUIs para auditar output de IA, y ofrecen un “slider de autonomía”.

El futuro es software co-piloto donde humanos dirigen, IA asiste, y el loop de feedback es rápido.

3. Los fantasmas necesitan cuerpos (eventualmente)

Karpathy nos recuerda que “no estamos construyendo animales, estamos construyendo fantasmas” - entidades desencarnadas de información pura que imitan comportamiento humano sin instinto o embodiment. Sus ventajas vienen de esa desencarnación: velocidad de razonamiento, escala, recall perfecto.

Pero falta mucho: “Tal vez el hipocampo, no está obvio cuál sería. Algunas partes probablemente no son importantes. Tal vez el cerebelo no es importante para la cognición. Pero todavía creo que hay nucleos en el cerebro que son muy antiguos que no hemos replicado”.

Construyendo el futuro que no verás venir

La próxima década, en palabras de Karpathy, “no será sobre la llegada de AGI. Será sobre aprender a vivir con - y construir - nuestros fantasmas”.

No habrá un momento de singularidad. No habrá un “antes y después” dramático. Será más como electricidad o internet - una marea que levanta todo gradualmente - pero más rápido de lo que estamos acostumbrados - hasta que un día el mundo simplemente opera en una nueva baseline de inteligencia.

Los modelos serán más pequeños, más inteligentes, menos enciclopédicos y más razonadores. Olvidarán más, pero pensarán mejor. No sabrán tu nombre, pero resolverán problemas que hoy parecen imposibles.

Y si Karpathy tiene razón - como usualmente la tiene - todo esto sucederá tan gradualmente que apenas lo notaremos en las estadísticas económicas.

Pero la pregunta para los próximos años no es “cuándo llegará AGI” sino “qué harás tú mientras el mundo se reconfigura lentamente a tu alrededor”. Porque si Karpathy tiene razón, la oportunidad no estará en entrenar el modelo más grande, sino en curar el contexto más valioso.

¿Cuál será el tuyo?

Referencias principales:

La Última Interfaz

Discusión sobre este post

Por supuesto, sigue adelante.