次世代アーキテクチャの可能性:Transformer共同開発者Lukasz Kaiser氏、「10倍の改善」があれば乗り換えを容認
5月5日、サンフランシスコで開催されたPathway主催の公開討論会で、Transformerの生みの親と次世代技術の先駆者らが激突
Pathwayが開催したアーキテクチャに関する公開討論会で最も衝撃的だったのは、挑戦者による攻撃ではなく、現王者の「降伏条件」の提示だった。Transformerの共同開発者であり、GPT-4、GPT-5、および推論モデル「o1」「o3」を支える研究者であるLukasz Kaiser氏は、もしPost-Transformer(ポスト・トランスフォーマー)アーキテクチャがより優れたスケーリング曲線を示せるのであれば――たとえ現行ハードウェアでの実行コストが50倍かかったとしても――自身は降伏せざるを得ないと語った。「もし、速度は50倍遅いとしても、より優れた傾斜(スケーリング)を持つモデルを見せてくれれば、君たちの勝ちだ。私は降伏する。それを示せば、ハードウェアは後からついてくる」。これは、AIインフラの構築に投資する多くの投資家が想定していたよりも、はるかに開かれた扉である。
「10倍」の壁:ハードウェアはもはや言い訳にならない
「ハードウェアの宝くじ」論――Transformerが勝利したのは、GPUの行列演算がたまたまそのアーキテクチャに完璧に適合していたからだという説――は、この夜の議論の中心となった。Transformerの共同開発者でありながら、現在はPost-Transformer側で活動するSakana AI共同創業者のLlion Jones氏は、「Transformerのブレイクスルーは深く誤解されている」と断言した。同氏の考えでは、注意(アテンション)レイヤーや残差接続をいじり回して次を探そうとする研究者は時間を浪費しているに過ぎない。真のブレイクスルーはハードウェアの並列処理にあり、その最適化の余地はもはや残されていないという主張だ。
Kaiser氏は、歴史的な事実を挙げて反論した。TPUの第一世代はTransformerではなく、RNN(回帰型ニューラルネットワーク)のために作られたものだ。アテンションモデルが初めてTPU上で動作した際、指数関数演算がハードウェアに実装されていなかったため、ソフトマックス関数をCPUにオフロードせざるを得なかった。「当時はとてつもなく遅かった」とKaiser氏は振り返る。「ハードウェア企業が方針転換するほどの実力を証明する必要があった。そして8年後の今、非常に高速に処理できている」。同氏の主張は、十分に優れたアーキテクチャであれば自らハードウェアを引き寄せるということだ。ただし、そのハードルは2倍ではなく「10倍」である。さらに、現在の研究者にとって計算式を変える現実的な見解として、AIエージェントがCUDAコードを書けるようになった点を挙げた。「GPU上で非常に遅い処理の多くは、優れたカーネルを使えば克服できる。しかも、そのカーネルを自分で書く必要すらない」。Post-Transformerの研究開発や投資を行う者にとっての示唆は、Transformerを取り巻く実装上の障壁が、ベンチマークの数値が示すよりも速く崩れつつあるということだ。
BDHアーキテクチャとPageRankの類推
Pathwayのチーフ・サイエンティフィック・オフィサーであり、Dragon Hatchlingアーキテクチャの考案者であるAdrian Kosowski氏は、最も概念的に野心的な議論を展開した。同氏の主張はTransformerが誤りだということではなく、Transformerを含む現行のいかなるアーキテクチャも、知能の「ライトモチーフ(主題)」――情報検索におけるPageRankのように、あらゆる知的行動を統合する根本的なプロセス――を未だ発見していないというものだ。「90年代、知能のほんの一部に過ぎない『情報のインデックス化』という課題があった。そこに一つの大きなテーマ、一つの数学的方程式、そして一つの実装方法を掲げた企業が現れた」。GoogleのPageRankとMapReduceは、単に優れたAltaVistaを作ったのではなく、問題の枠組み自体を再定義した。Kosowski氏の主張は、知能そのものに対して、我々はまだその瞬間を迎えていないというものだ。
Pathwayで開発中のBDHアプローチは、高次元空間における潜在的推論、すなわち思考を言語トークンに外在化せずに行う能力に焦点を当てている。「Transformerは言語で考える。潜在的な思考で考えているわけではない。思考を記憶しているだけで、考えているのは言語だ」。これは単なる哲学的な区別ではない。推論の効率性や推論時のハードウェア利用率に直結する問題であり、Kosowski氏はこれを次のフロンティアと位置づける。「推論や思考に費やす時間が増える世界において、Transformerがハードウェア利用の観点からも究極のアーキテクチャであるかどうかは、極めて真っ当な問いだ」
Liquid AIの戦略:Transformerか否かではなく、共存
Liquid AIの共同創業者兼CTOで、MIT CSAILの研究員でもあるMathias Lechner氏は、登壇者の中で最も現実的な視点を示した。同氏の枠組みは、商業的に最も誠実なものと言える。Liquid AIはどちらか一方に肩入れしない。目の前の展開条件に合わせて最適なものを構築する。Lechner氏は、Raspberry Pi上でGPT-3レベルの言語モデルを毎秒約40トークンで動作させた事例を紹介した。これは特定のアーキテクチャへの忠誠ではなく、要件に応じてTransformerのコンポーネント、SSM(状態空間モデル)、ゲート付き線形アテンション、畳み込みレイヤーを選択することで達成された。「DeepSeekが新しいアテンション機構を導入すれば私は嬉しいし、新しいPost-Transformerモデルがリリースされても嬉しい。より幅広いアーキテクチャから選択できるからだ」
Lechner氏はまた、この夜で最も刺激的な長期予測を何気なく口にした。TransformerをベースとしたAIエージェントこそが、最終的にTransformerの代替品を発見するかもしれないというものだ。「彼ら自身が、自分たちの代替品を見つけると信じている。Transformerが自らの後継者を見つけ出すと確信している」。ドラマチックな言い方ではなかったが、次のアーキテクチャのブレイクスルーが、人間による意図的な研究プログラムではなく、現在のパラダイムから創発的に生まれる可能性があるという示唆は、会場で受けた以上の注目に値する。
継続学習:不都合な弱点
この夜最も鋭い議論の一つは、継続学習(Continual Learning)についてだった。Jones氏は、これをTransformerパラダイムの決定的な構造的弱点として、苛立ちを隠さずに指摘した。「本来は静的な重みを持つように作られたものに対して、『どうすれば動的な重みを追加できるか』と無理をしている。最初から動的な重みを持つように設計されたものを開発する方がよほどいい」。Kaiser氏は、知的な誠実さを持って、Transformerのインコンテキスト学習(文脈内学習)が動的な重みの更新に近い働きをしていることを認めた。しかし、「私が本当に苦痛に感じるのは、その都度(モデルに)指示を出さなければならない点だ」と付け加えた。同氏が指摘するように、単純な検索ではなくインコンテキスト学習の質を測定する本格的なベンチマークは存在しない。「干し草の中の針」テストは検索の問題であり、学習の問題ではない。この分野は、両者を区別するツールをまだ構築できていないのだ。
パープレキシティこそが全てのベンチマークとなるべき
この討論会から得られた最も実用的な洞察の一つは、ホールドアウト・データセットに対する「パープレキシティ(Perplexity)」を、業界がより体系的に採用すべき優れたベンチマークとするKaiser氏の主張だ。同氏は、オリジナルのTransformer研究において、BLEUスコアを捨ててパープレキシティを採用したことが正しい判断だったと振り返った。必要な時に相関を示し、BLEUスコアが飽和した後も有用であり続けたからだ。「OpenAIがモデルを真にベンチマークする方法は、内部コードベースに対するパープレキシティだ。多くの研究所もそうしているはずだ」。同氏はさらに、非公開のテキストやコードのホールドアウト・セットを保持し、評価ごとに料金を徴収してアーキテクチャ間のスケーリング曲線を公開する小規模な企業のアイデアを提示した。Jones氏も即座に同意した。「人々がパープレキシティの追求に立ち返るのを見たい」。どのアーキテクチャへの賭けが真に積み上がっており、どれがベンチマークに最適化されただけの産物かを評価しようとする研究者や投資家にとって、この枠組みは重要である。
局所最適解の問題と、抜本的な転換の必要性
Jones氏は、この分野で最も過小評価されている問題として、Transformerの成功そのものが後継者の発見を阻んでいるという点を繰り返し強調した。「Transformerの成功が、次の発見を止めているとさえ思う。人々はこのアーキテクチャに集中しすぎており、あまりに成功しているがゆえに、我々は今、局所最適解に陥っている」。同氏は、その罠にまつわる経済性について率直に語った。OpenAIのような企業がTransformerに倍賭けするのは合理的だ。そこに彼らの参入障壁があるからだ。しかし、スタートアップは逆をすべきだと同氏は主張する。「長期的な賭けに資金を投じ、次に何が来るのかを探す時間を取る方が理にかなっている。OpenAIもかつてはその立場だった。彼らは他の誰よりも早くTransformerがスケールすることを見抜き、それによって大きな成功を収めた」
この夜最も推測的な開示は、Jones氏が最後にさらりと語ったことだ。Sakana AIのチームが探求しているアーキテクチャの中には、原理的にバックプロパゲーション(誤差逆伝播法)で学習できないものが含まれている可能性があるという。詳細は明かされなかったが、このコメントは、少なくとも一つの潤沢な資金を持つ研究所が、現在のパラダイムの周辺を飾るのではなく、真にその外側で活動していることを示唆している。
誰も真剣に取り組んでいない「安全性」の次元
Kaiser氏は終盤、思考の連鎖(Chain-of-Thought)の透明性が解釈可能性を保証するという従来の常識に反する安全性の観点を提起した。「トークンはそれぞれ数バイトだが、その上の活性化レイヤーには、数千の浮動小数点数が何層にも重なっている。その中で何が起きているのか、我々は全く理解していない」。同氏の警告は直接的だった。現状の思考の連鎖がモデルの挙動に対して忠実であるのは、事前学習のインセンティブの結果であり、アーキテクチャ上の保証ではない。「ある日、同じ言葉が発せられていても、その裏にある思考が全く別物になっているかもしれない。それに気づけるかどうか、私には分からない」。Jones氏は、さらに直感に反する結論を付け加えた。生物学的な神経システムの仕組みをより忠実に模倣するように設計されたPost-Transformerアーキテクチャの方が、逆説的ではあるが、置換前のTransformerよりも解釈しやすく、安全である可能性があるというものだ。
会場の投票では、Post-Transformerが勝者となったが、その差は僅差だった。より永続的な教訓は、Transformerの設計者の一人が、自らその技術を放棄する条件を公に提示したという点にある。そして、その条件は、現在のベンチマーク文化が示唆するよりも、はるかに達成可能なものなのである。