DruckFin

Debate sobre Pathway: Lukasz Kaiser, coinventor del Transformer, admite que una arquitectura post-Transformer podría ganar, si demuestra una mejora de 10x

Pathway organizó un debate en vivo en San Francisco el 5 de mayo de 2026, enfrentando a los inventores del Transformer contra los pioneros de lo que vendrá después

El momento más impactante del debate en vivo sobre arquitecturas de Pathway no fue cuando un retador asestó un golpe, sino cuando el actual campeón ofreció las condiciones para su rendición. Lukasz Kaiser, coinventor del Transformer y el investigador detrás de GPT-4, GPT-5 y los modelos de razonamiento o1/o3, dijo a la audiencia que, si una arquitectura post-Transformer puede demostrar una mejor curva de escalamiento —incluso con un costo de tiempo de ejecución 50 veces mayor en el hardware actual—, no tendría más remedio que ceder. "Si me muestras un modelo que es simplemente 50 veces más lento, pero con una mejor pendiente, ganas. Tengo que rendirme. El hardware seguirá cuando demuestres eso". Esa es una puerta más abierta de lo que probablemente han asumido la mayoría de los inversionistas que siguen el desarrollo de la infraestructura de IA.

El estándar de 10x: Por qué el hardware ya no es la excusa de antes

El argumento de la "lotería del hardware" —la idea de que el Transformer ganó en parte porque la multiplicación de matrices en GPU resultó adaptarse perfectamente a su arquitectura— fue el tema central durante toda la velada. Llion Jones, quien quizás se encuentra en una posición única en este debate como coinventor del Transformer que ahora lucha por el bando post-Transformer y cofundador de Sakana AI, argumentó sin rodeos que "el avance del Transformer está profundamente malentendido". Según su enfoque, los investigadores que siguen reorganizando capas de atención y conexiones residuales en busca de la próxima novedad están perdiendo el tiempo. El verdadero avance fue el paralelismo del hardware, y esa optimización ya no está disponible para ser descubierta de nuevo.

Kaiser respondió con una nota histórica que tiene un peso real. La primera generación de TPU fue construida para servir a las RNN, no a los Transformers. Cuando los modelos de atención se ejecutaron por primera vez en ellas, el softmax debía ser delegado a la CPU porque el exponente no estaba en el hardware. "Eran lentos como el infierno", dijo Kaiser. "Tuvieron que demostrar que eran lo suficientemente buenos para que la empresa de hardware cambiara el rumbo, y ahora, ocho años después, pueden ejecutarlos muy rápido". Su punto es que una arquitectura suficientemente superior se ganará su propio hardware, pero el estándar no es ser 2 veces mejor, sino 10 veces. Además, añadió una observación práctica que cambia el cálculo para los investigadores actuales: los agentes de IA ahora pueden escribir CUDA. "Muchas cosas que son dolorosamente lentas en la GPU se pueden superar con un buen kernel, el cual ya no necesitas escribir tú mismo". La implicación para cualquiera que construya o financie investigación post-Transformer es que el foso defensivo (moat) de implementación que rodea al Transformer se está reduciendo más rápido de lo que sugieren las cifras de los benchmarks.

La arquitectura BDH y la analogía de PageRank

Adrian Kosowski, director científico de Pathway e inventor de la arquitectura Dragon Hatchling, presentó posiblemente el argumento conceptualmente más ambicioso de la velada. Su tesis no fue que el Transformer esté equivocado, sino que ni el Transformer ni ninguna arquitectura actual han descubierto todavía lo que él llamó el "leitmotiv" de la inteligencia: el proceso subyacente, análogo al PageRank para la recuperación de información, que unifica todas las formas de comportamiento inteligente. "En los años noventa, había un problema que es solo un pequeño subconjunto de la inteligencia: indexar información. Y luego hubo una empresa que llegó con un gran tema, una ecuación matemática y una forma de implementarlo". El PageRank y MapReduce de Google no solo construyeron un mejor AltaVista; replantearon el problema por completo. El argumento de Kosowski es que aún no hemos tenido ese momento para la inteligencia en sí misma.

Su respuesta arquitectónica, el enfoque BDH que se desarrolla en Pathway, se centra en el razonamiento latente en espacios de alta dimensión: la capacidad de pensar sin externalizar el pensamiento en tokens de lenguaje. "Los Transformers piensan en lenguaje. No piensan en pensamiento latente. Memorizan sus pensamientos, pero piensan en lenguaje". Esto no es solo una distinción filosófica. Tiene implicaciones directas para la eficiencia del razonamiento y la utilización del hardware durante la inferencia, lo cual Kosowski identificó como la próxima frontera. "A medida que avanzamos hacia un mundo donde se dedica cada vez más tiempo a la inferencia y al razonamiento, es una pregunta perfectamente honesta si el Transformer es también la arquitectura definitiva en términos de uso de hardware mientras razona".

La cobertura de Liquid AI: Transformers y post-Transformers, no uno contra otro

Mathias Lechner, cofundador y CTO de Liquid AI e investigador afiliado en MIT CSAIL, fue la voz más pragmática en el escenario, y su planteamiento es probablemente el más comercialmente honesto. Liquid AI no elige un bando. Construye lo que funciona para la restricción de despliegue que tiene enfrente. Lechner describió ejecutar un modelo de lenguaje con capacidad de nivel GPT-3 en una Raspberry Pi a aproximadamente 40 tokens por segundo, logrado no por lealtad a ninguna arquitectura única, sino seleccionando componentes de Transformers, SSM, atención lineal con puertas y capas convolucionales según los requisitos. "Cada vez que DeepSeek introduce un nuevo mecanismo de atención, me alegro. Y cada vez que se lanza un nuevo modelo post-Transformer, también me alegro, porque me permite recurrir a un conjunto más amplio de arquitecturas".

Lechner también planteó la predicción a largo plazo más provocadora de la velada, casi como un comentario al margen: que los agentes de IA, construidos ellos mismos sobre Transformers, podrían ser los que finalmente descubran el reemplazo del Transformer. "Creo que ellos encontrarán su propio reemplazo. Estoy convencido de que el Transformer encontrará su propio sustituto". Se dijo sin dramatismo, pero la implicación —que el próximo avance arquitectónico pueda ser un resultado emergente del paradigma actual en lugar de un programa de investigación humano deliberado— merece más atención de la que recibió en la sala.

El aprendizaje continuo: La debilidad inconveniente

Uno de los intercambios más agudos de la noche trató sobre el aprendizaje continuo, que Jones describió con visible frustración como la debilidad estructural central del paradigma Transformer. "Hemos tomado algo que está construido fundamentalmente para tener pesos estáticos y decimos: '¿ahora cómo podemos añadir algo encima para que tengamos pesos dinámicos?'. Preferiría ver a alguien desarrollar algo diseñado para tener pesos dinámicos desde cero". Kaiser, en un momento de genuina honestidad intelectual, reconoció que el mecanismo de aprendizaje en contexto del Transformer hace algo que parece una actualización dinámica de pesos, pero añadió la advertencia de que "lo que realmente me duele es que tienes que decir 'quizás'". Como señaló, no existe un benchmark serio que mida la calidad del aprendizaje en contexto frente a la simple recuperación. Las pruebas de "aguja en un pajar" son problemas de recuperación, no de aprendizaje, y el campo aún no ha construido la herramienta para distinguirlos.

La perplejidad como el benchmark que debería regirlo todo

Una de las ideas más prácticas del debate fue el argumento de Kaiser a favor de la perplejidad (perplexity) en un conjunto de datos de prueba (hold-out) como el benchmark superior que la industria ya debería estar utilizando de manera más sistemática. Describió cómo, durante el trabajo original del Transformer, dejar de lado la puntuación BLEU en favor de la perplejidad resultó ser la decisión correcta: se correlacionaba cuando era necesario y seguía siendo útil mucho después de que las puntuaciones BLEU se saturaran. "La forma en que OpenAI realmente evalúa sus modelos es mediante la perplejidad en la base de código interna, y creo que muchos laboratorios hacen esto". Fue más allá, sugiriendo la idea de una pequeña empresa que mantenga un conjunto privado de texto y código nunca publicado, cobre una tarifa por evaluación y publique curvas de escalamiento entre arquitecturas. Jones estuvo de acuerdo de inmediato. "Me gustaría ver a la gente volver a intentar impulsar la perplejidad". Para los investigadores e inversionistas que intentan evaluar qué apuestas arquitectónicas están realmente generando valor compuesto y cuáles son artefactos ajustados a los benchmarks, este enfoque es fundamental.

El problema del mínimo local y el caso para una ruptura radical

Jones volvió repetidamente a lo que llamó el problema más subestimado del campo: que el éxito del Transformer impide el descubrimiento de su sucesor. "De hecho, creo que el éxito del Transformer nos está impidiendo encontrar lo siguiente. La gente se está concentrando demasiado en esta arquitectura, y es tan exitosa y tan buena en lo que hace que estamos realmente atrapados en un mínimo local en este momento". Su admisión más sincera fue sobre la economía de esa trampa. Una empresa como OpenAI tiene razón al apostar doble por los Transformers: es donde reside su foso defensivo. Pero las startups, argumentó, deberían hacer lo contrario. "Tiene más sentido poner algo de dinero detrás de las apuestas a largo plazo, tomando tiempo para encontrar lo que viene después. OpenAI estuvo en esa posición en algún momento. Descubrieron que los Transformers escalaban mejor antes que los demás, y les ha ido muy bien con eso".

La revelación más especulativa de la velada provino de Jones al pasar: que algunas de las arquitecturas que su equipo en Sakana AI está explorando podrían no ser entrenables mediante retropropagación (backpropagation), ni siquiera en teoría. No ofreció más detalles, pero el comentario señala que al menos un laboratorio con buenos recursos está operando genuinamente fuera del paradigma actual en lugar de decorar sus bordes.

La dimensión de seguridad que nadie está tomando lo suficientemente en serio

Kaiser planteó un punto de seguridad cerca del final de la velada que contradice la sabiduría convencional sobre que la transparencia de la "cadena de pensamiento" (chain-of-thought) proporciona garantías de interpretabilidad. "Tienes estos tokens, y los tokens son como unos pocos bytes cada uno. Y luego tienes las activaciones sobre ellos, y son docenas y docenas de capas de miles de puntos flotantes, y no tenemos absolutamente ninguna idea de lo que está sucediendo en ellas". Su advertencia fue directa: la fidelidad actual del razonamiento de cadena de pensamiento con respecto al comportamiento subyacente del modelo es producto de incentivos de preentrenamiento, no una garantía arquitectónica. "Un día puedes ver las mismas palabras dichas ahí, y los pensamientos serán totalmente diferentes, y no estoy seguro de que vayas a saberlo". Jones añadió un corolario contraintuitivo: que una arquitectura post-Transformer diseñada para reflejar más estrechamente cómo funcionan realmente los sistemas neuronales biológicos podría, paradójicamente, resultar ser más interpretable y segura que el Transformer al que reemplaza.

El público votó a los post-Transformers como ganadores en el aplausómetro de la noche, aunque el margen se describió como estrecho. La conclusión más duradera es que uno de los propios arquitectos del Transformer ha establecido públicamente las condiciones bajo las cuales lo abandonaría, y esas condiciones son más alcanzables de lo que la cultura actual de benchmarks sugeriría.

Aviso legal: Este artículo es solo para fines informativos y no constituye asesoramiento de inversión ni una recomendación para comprar, vender o mantener ningún valor. Nuestros analistas ofrecen una cobertura detallada de eventos corporativos, pero pueden cometer errores; siempre realiza tu propia investigación. Los puntos de vista y opiniones expresados no reflejan necesariamente los de DruckFin. No hemos verificado de forma independiente toda la información utilizada aquí, y puede contener errores u omisiones. Antes de tomar cualquier decisión de inversión, consulta a un asesor financiero calificado. DruckFin y sus afiliados no asumen ninguna responsabilidad por cualquier pérdida que surja de la confianza en este contenido. Para los términos completos, consulta nuestros Términos de Uso.