DruckFin

Noam Brown de OpenAI: Las tablas de referencia engañan a los inversores sobre la capacidad de los modelos

Un científico investigador revela por qué los marcos de evaluación tradicionales tergiversan fundamentalmente los modelos de razonamiento, enero de 2026

Noam Brown, científico investigador de OpenAI, ha publicado un ensayo en el que sostiene que el enfoque estándar de la industria para evaluar modelos de IA se ha vuelto peligrosamente engañoso a medida que las capacidades de razonamiento escalan con el cómputo de inferencia. El problema, explica Brown en un pódcast reciente, es que las tablas de referencia (benchmark grids) muestran puntuaciones de un solo número que ocultan la variable más importante: cuánto presupuesto de cómputo consume un modelo para alcanzar ese rendimiento.

Cuando OpenAI lanzó su modelo más reciente, designado internamente como 5.5, surgió un escepticismo inicial a partir de comparaciones de referencia que mostraban solo mejoras marginales respecto al lanzamiento anterior, el 5.4. "Fue solo de unos pocos puntos porcentuales en algunos benchmarks", señala Brown. Pero esa reacción duró apenas unas horas antes de que el uso práctico revelara ganancias sustanciales en las capacidades. La desconexión provenía de un problema de medición que, según Brown, ha infectado la metodología de evaluación de toda la industria.

La variable oculta en el rendimiento del modelo

El problema central es que las tablas de referencia no controlan el cómputo en tiempo de prueba (test-time compute), es decir, el presupuesto de inferencia asignado a cada problema. El modelo 5.5 demostró ser mucho más eficiente en el razonamiento que el 5.4, ofreciendo un rendimiento comparable mientras "pensaba" durante mucho menos tiempo. "Una vez que controlas la cantidad de tiempo de pensamiento, realmente puedes ver que el 5.5 es un salto sustancial sobre el 5.4", explica Brown. Sin embargo, los benchmarks estándar hacen que esta ventaja de eficiencia sea invisible para los inversores e investigadores que analizan las tablas de rendimiento.

La respuesta natural, señala Brown, es simplemente dejar que los modelos piensen hasta que el rendimiento se estabilice. Pero ese enfoque se ha vuelto poco práctico con los sistemas de razonamiento modernos. "Lo que estamos viendo hoy con los modelos modernos es que el 5.5 y otros modelos pueden pensar, si los estructuras adecuadamente, durante semanas antes de que el rendimiento se estabilice en algunos de estos benchmarks". Esto representa un cambio fundamental respecto a la era de GPT-3, cuando el tiempo de inferencia adicional generaba ganancias mínimas más allá de unos pocos segundos de procesamiento.

La solución propuesta por Brown implica imponer restricciones presupuestarias explícitas o graficar el rendimiento en función del cómputo en tiempo de prueba. "O tienes algún tipo de presupuesto para el benchmark, ya sea en tokens, costo, tiempo o lo que sea, o trazas el rendimiento como una función de la cantidad de cómputo en tiempo de prueba que se dedica al modelo", argumenta. Solo entonces es posible una comparación significativa entre modelos.

Marcos de evaluación de seguridad construidos para otra era

El problema de medición se extiende más allá de la evaluación de capacidades hacia las evaluaciones de seguridad, con implicaciones potencialmente graves. Brown señala que las políticas de escalado responsable y los marcos de preparación en los principales laboratorios se desarrollaron en gran medida antes de que el escalado en tiempo de inferencia fuera significativo. Estas políticas evalúan si los modelos poseen capacidades peligrosas, pero no tienen en cuenta la naturaleza dependiente del presupuesto del rendimiento de los modelos modernos.

"El problema es que ahora estamos en un mundo donde la capacidad del modelo es una función de cuánto dinero le inviertes", afirma Brown. "Básicamente, si le das un presupuesto de $10.000, puede hacer mucho más de lo que puede hacer con un presupuesto de $10. Si le das un presupuesto de $10 millones, puede hacer aún más". Los marcos de seguridad actuales no abordan en qué nivel de presupuesto deben evaluarse las capacidades peligrosas.

El AI Safety Institute ha demostrado que los modelos continúan mejorando en tareas de ciberseguridad incluso con presupuestos de 100 millones de tokens, lo que representa un gasto computacional y un tiempo sustanciales. Brown sugiere que los protocolos de evaluación podrían proyectar el rendimiento con presupuestos altos midiendo las pendientes de mejora con presupuestos más bajos, aunque reconoce que esto sigue siendo un problema de investigación abierto.

Capacidad latente en modelos ya lanzados

El rápido ciclo de lanzamiento de modelos crea otro inconveniente. OpenAI y sus competidores lanzan nuevos modelos cada dos o tres meses, pero llevar los modelos realmente a sus límites puede requerir ejecutarlos durante meses. "Nadie sabe realmente cuál es el techo de capacidades de estos modelos porque nadie los ha ejecutado durante el tiempo suficiente para saberlo realmente", observa Brown.

Ofrece un ejemplo sorprendente del trabajo reciente de OpenAI que refutó la conjetura de la distancia unitaria de Erdős utilizando un modelo interno. El logro requirió un presupuesto mínimo, pero la experimentación posterior reveló que el modelo 5.5 disponible públicamente podía alcanzar el mismo resultado mediante una estructuración (scaffolding) adecuada, aunque a un costo estimado de entre $1.000 y $100.000. "Habría sido posible para alguien refutar la conjetura de la distancia unitaria de Erdős antes que nosotros usando un modelo de propósito general", señala Brown. "Nadie había explorado suficientemente qué sucede si invierto $100.000 en cómputo en el 5.5".

Esta dinámica presenta un problema de coordinación. Cada lanzamiento de modelo reduce el costo de lograr resultados específicos entre 10 y 100 veces, lo que crea incentivos para esperar en lugar de explorar exhaustivamente las capacidades actuales. La propia OpenAI desalienta activamente a los investigadores internos de probar exhaustivamente los modelos actuales en problemas abiertos de matemáticas y física, prefiriendo concentrar los esfuerzos en desarrollar sistemas de próxima generación más capaces y rentables.

Ejemplos concretos del desarrollo de bots de póquer

Brown utiliza su metodología de evaluación personal para ilustrar la progresión de la capacidad a través de los lanzamientos de modelos. Como experto en teoría de juegos que desarrolló una IA para jugar al póquer durante su doctorado, prueba cada nuevo modelo intentando construir bots de póquer. El modelo 5.2 le permitió crear un "river solver", la etapa final del análisis de póquer, aproximadamente cinco veces más rápido de lo que él podría hacerlo solo. Sin embargo, describe su rendimiento como similar al de "un estudiante de posgrado que se encontraría con problemas, pero al menos yo sabría cuáles son esos problemas y cómo solucionarlos".

Un problema persistente que Brown etiqueta como "gaslighting" surgió con modelos anteriores. En una ocasión, le preguntó a un modelo cuánto perdería al retirarse con $100 en el pozo. El modelo respondió $92, y cuando fue cuestionado, insistió en que "está cerca de 100, está bien, no es gran cosa". El modelo 5.5 eliminó en gran medida este comportamiento y puede construir un "river solver" completo con una guía mínima. Brown estima que dentro de seis a doce meses, los modelos completarán "un solucionador de póquer completo, básicamente toda mi tesis doctoral de una sola vez" con prompts de tipo zero-shot.

Al intentar llevar a los modelos hacia contribuciones de investigación genuinas solicitando algoritmos superiores al trabajo publicado, Brown descubre que los sistemas actuales aún se quedan cortos. "Puedo darle mucho tiempo y todavía no es capaz de hacerlo", informa. Sí nota una mejora incremental entre lanzamientos y espera un punto de inflexión eventual donde el "gusto" por la investigación sea genuinamente útil, similar a los avances previos en programación y matemáticas.

Automejora recursiva sin un despegue rápido

Las observaciones de Brown informan su perspectiva sobre la automejora recursiva y la dinámica de despegue. Aunque reconoce que los modelos están "definitivamente acelerando lo que los investigadores pueden hacer dentro de los laboratorios", ve esta aceleración como desigual en diferentes aspectos de la investigación. "Actualmente estamos en el punto en el que, si algo va 100 veces más rápido, te ves limitado por las cosas que no van 100 veces más rápido", explica.

Críticamente, Brown no anticipa un escenario de explosión de inteligencia de la noche a la mañana. "Existe esta hipótesis de que podrías tener básicamente una explosión de inteligencia de la noche a la mañana donde los modelos descubren algún tipo de avance para hacerse más inteligentes y luego eso conduce a más avances que los hacen aún más inteligentes de inmediato", señala. Su escepticismo proviene directamente de los requisitos de cómputo en tiempo de prueba: "Si se requiere tanto cómputo en tiempo de prueba para desbloquear todas las capacidades del modelo, entonces eso significa que estás limitado por el tiempo".

Este cuello de botella temporal representa actualmente la restricción vinculante para los laboratorios de frontera, según la evaluación de Brown. "El mayor cuello de botella para todos nosotros es el tiempo y es por eso que todos los investigadores están trabajando tan intensamente en este momento", afirma. "Todos vemos cuál es el excedente. Vemos cuáles son las capacidades y simplemente estamos limitados por la rapidez con la que podemos hacer las cosas".

La coordinación multiagente como frontera inexplorada

Cuando se le pregunta sobre direcciones de investigación poco exploradas, Brown señala la coordinación multiagente a gran escala. Aunque reconoce el trabajo existente sustancial, cree que los esfuerzos actuales apenas arañan la superficie de lo que es posible. Su modelo mental se basa en el desarrollo de la civilización humana, que progresó no a través de ganancias de inteligencia individual, sino a través de miles de millones de humanos acumulando y construyendo sobre el conocimiento compartido a lo largo de milenios.

"No estamos viendo eso con los modelos de IA hoy en día", observa Brown. "Nacen en un mundo y existen durante una ventana de contexto muy corta y luego simplemente desaparecen". Si bien los sistemas de recuperación y la estructuración (scaffolding) proporcionan una continuidad limitada, Brown ve los primeros productos como MultiOn y OpenClaw como indicadores de un posible estado futuro que involucre conocimiento compuesto y coordinado a escala global.

Rompiendo el equilibrio de las tablas de referencia

Brown caracteriza la publicación continua de tablas de referencia tradicionales como un mal equilibrio que persiste a pesar del reconocimiento generalizado de su insuficiencia. "Todo el mundo sabe que es un mal equilibrio, pero nadie quiere salir de él", explica. Las empresas publican tablas porque los inversores y los investigadores las esperan, creando un ciclo que se refuerza a sí mismo.

Su ensayo tiene como objetivo dar permiso para que el próximo lanzamiento de modelo abandone las presentaciones de tablas de alto nivel en favor de curvas de rendimiento con presupuestos de cómputo explícitos en el eje x. Sobre las capas de enrutamiento y los enfoques de consenso populares entre las empresas de aplicaciones, Brown aplica el mismo principio: tales técnicas pueden mejorar el rendimiento, pero la evaluación debe controlar el cómputo en tiempo de prueba para determinar si superan simplemente permitir que un solo modelo piense más tiempo a un costo equivalente.

Brown mantiene un escepticismo apropiado sobre si las optimizaciones de enrutamiento para benchmarks específicos se traducen en mejoras en el mundo real, señalando el riesgo persistente de sobreajuste (overfitting) a los conjuntos de evaluación. Pero su mensaje fundamental sigue siendo que, sin controlar la variable de cómputo, la comparación significativa se ha vuelto imposible en una era donde la capacidad del modelo escala continuamente con el presupuesto de inferencia.

Aviso legal: Este artículo es solo para fines informativos y no constituye asesoramiento de inversión ni una recomendación para comprar, vender o mantener ningún valor. Nuestros analistas ofrecen una cobertura detallada de eventos corporativos, pero pueden cometer errores; siempre realiza tu propia investigación. Los puntos de vista y opiniones expresados no reflejan necesariamente los de DruckFin. No hemos verificado de forma independiente toda la información utilizada aquí, y puede contener errores u omisiones. Antes de tomar cualquier decisión de inversión, consulta a un asesor financiero calificado. DruckFin y sus afiliados no asumen ninguna responsabilidad por cualquier pérdida que surja de la confianza en este contenido. Para los términos completos, consulta nuestros Términos de Uso.