なぜ私たちは考えるのか？

本文は Lilian Weng が最近書いたブログで、彼女の多くの意見に賛同し、多くのインスピレーションを受けました。
原文リンク：https://lilianweng.github.io/posts/2025-05-01-thinking/

目次#

動機付け
- 心理学との類似
- 計算はリソースである
- 潜在変数モデリング
トークンベースの思考
- 分岐と編集
  - 並行サンプリング
  - 順次修正
- 推論を改善するための強化学習
- 外部ツールの使用
- 忠実な思考
  - モデルはその考えを忠実に表現しているか
  - CoT に対する最適化圧力の影響：良いのか悪いのか？
連続空間における思考
- 循環アーキテクチャ
- Thinking Tokens
潜在変数としての思考
- 期待最大化
- 繰り返し学習
思考時間の拡張則
将来の展望
引用
参考文献

動機付け#

私たちは、モデルがより長く考えるように動機付けるためのいくつかの異なる方法を用いることができます。

心理学との類似#

モデルの思考の核心的な考え方は、人間の思考方法と密接に関連しています。私たち人間は「12345 と 56789 の積は？」という質問に即座に答えることはできません。むしろ、結果を導き出す前に考え、分析するための時間を費やすことは自然なことであり、特に複雑な問題に対してはそうです。『思考、速くて遅く』（Kahneman、2013 年）において、ダニエル・カーネマンは二重過程理論の視点から人間の思考を二つのモードに分けています：

迅速な思考（システム 1）は直感や感情に駆動されて迅速に自動的に動作し、ほとんど努力を必要としません。
ゆっくりとした思考（システム 2）は深く考えた論理的思考と多くの認知的努力を必要とします。この思考モードはより多くの精神的エネルギーを消費し、意識的な参加が必要です。

システム 1 の思考は迅速かつ単純であるため、しばしば正確性や論理性を犠牲にして主要な意思決定の駆動要因となります。これは、私たちの脳の心理的ショートカット（すなわちヒューリスティック）に依存し、誤りや偏見を引き起こす可能性があります。意識的にペースを落とし、反省、改善、分析にもっと時間をかけることで、私たちはシステム 2 の思考に参加し、直感に挑戦し、より理性的な選択をすることができます。

計算はリソースである#

深層学習の一つの見方は、神経ネットワークが正方向伝播中にアクセスできる計算（例えば、行列の乗算、活性化関数の計算）とストレージ量（例えば、モデルの重みやバイアス、中間活性化値）を通じて特徴づけられるというものです。もし私たちがそれらを最適化して勾配降下法を使用して問題を解決するなら、最適化プロセスはこれらのリソースをどのように使用するかを理解するでしょう —— 彼らはこれらのリソースを計算と情報ストレージの回路に組織する方法を理解するでしょう。この観点から、もし私たちがテスト時により多くの計算を行うことができるアーキテクチャやシステムを設計し、それを効果的に利用するように訓練すれば、より良く機能するでしょう。

トランスフォーマーモデルでは、モデルが生成する各トークンに対して行う計算量（flops）は、パラメータの数の約 2 倍です。なぜなら、前方伝播と逆伝播の両方でパラメータが使用されるからです。mix of experts（MoE）のようなスパースモデルでは、各正方向伝播でごく一部のパラメータしか使用されないため、計算は次のようになります：計算 = 2 * パラメータ / スパース性、ここでスパース性は活性化された専門家の割合です。

一方、CoT はモデルが計算しようとしている各トークンのためにより多くの flops 計算を実行できるようにします。実際、CoT には、モデルが問題の難易度に応じて計算量を調整できるという良い特性があります。

潜在変数モデリング#

機械学習における古典的なアイデアは、潜在（隠れ）変数 $z$ と可視変数 $y$ を持つ確率モデルを定義することであり、$y$ は私たちの学習アルゴリズムに与えられます。潜在変数の可能な値を周辺化（合計）することで、可視変数上に豊かな分布を表現することができます。 $P(y) = \sum_{z \sim P(z)} P(y | z)$
例えば、$x$ を問題のステートメント、$y$ をグラウンドトゥルースの答えまたは証明、$z$ を証明を導く自由形式の思考プロセスとして、数値問題と解決策の分布をシミュレートすることができます。最適化する周辺確率分布は次のようになります：
$P(y | x) = \sum_{z \sim p(z|x)} P(y | x, z)$

トークンベースの思考#

Ling らは 2017 年に、特に数学問題に対して、短い答えを生成する前に中間ステップを生成する戦略を探求しました。彼らは AQUA-RAT データセットを導入し、その後 Cobbe らが 2021 年に拡張し、小学校の数学（GSM）データセットを導入しました。Cobbe らは人工的に作成された解決策と検証器の上で、候補解決策の正確性を予測する生成器を監視学習機能で訓練しました。その後、彼らはこれらの解決策を検索することができました。Nye ら（2021 年）は中間思考トークンを「メモ帳」として使用し、Wei ら（2022 年）は現在の標準用語である思考連鎖（CoT）を創造しました。

CoT 推論を改善するための初期の作業は、人間が書いた推論の軌跡や、回答の正確性をフィルタリングするモデルが書いた軌跡に対する監視学習を含んでおり、後者は強化学習（RL）の基本的な形式と見なすことができます。他のいくつかの作業では、適切な「ステップバイステップで考える」というプロンプト（Kojima ら、2022 年）や、関連知識を最初に反映するようにモデルを促すより複雑なプロンプト（Yasunaga ら、2023 年）を使用することで、指示調整モデルの数学的性能を大幅に向上させることができることがわかりました。

その後の作業では、検証可能な解決策を使用して問題データセットに対して強化学習を行うことで、CoT 推論能力を大幅に向上させることができることがわかりました。例えば、短い答えを持つ STEM 問題や、単体テストで検証できるコーディングタスク（Zelikman ら、2022 年、Wang ら、2023 年、Liu ら、2023 年）です。o1-preview、o3、R1 技術報告（DeepSeek-AI、2025 年）の発表に伴い、このアプローチはますます注目を集めており、戦略勾配アルゴリズムが強力な性能をもたらすことが示されています。

分岐と編集#

テスト時に計算する基本的な目的は、テスト時にモデルの出力分布を適応的に修正することです。テスト時のリソースを利用してデコードするためのさまざまな方法があり、より良いサンプルを選択することで、モデルの予測をより理想的な分布に変更することができます。デコードプロセスを改善するための 2 つの主要な方法は、並行サンプリングと順次修正です。

並行サンプリングは、複数の出力を同時に生成し、プロセス報酬信号を通じて各ステップにガイダンスを提供するか、終了時に検証器を使用して品質を判断します。これは、テスト時の性能を向上させるために最も広く採用されているデコード方法であり、例えばベスト N やビームサーチがあります。基本的な事実が利用できない場合、自洽性（Wang ら、2023 年）は通常、複数の CoT の出力の中から多数決で答えを選択するために使用されます。
順次修正は、前のステップの出力に基づいてモデルの応答を反復的に調整し、モデルが既存の応答を意図的に反映し、誤りを修正することを要求します。修正プロセスは微調整されたモデルに依存する必要があるかもしれません。なぜなら、外部のフィードバックなしにモデルの内在的な自己修正能力に単純に依存することは改善をもたらさない可能性があるからです（Kamoi ら、2024 年、Huang ら、2024 年）。

並行サンプリングはシンプルで直感的で実装が容易ですが、モデルの能力に制約されます。すなわち、モデルが一度に正しい解決策を実現できるかどうかです。順次修正はモデルに誤りを反映させることを明示的に要求しますが、速度が遅く、実装中に特に注意が必要です。なぜなら、正しい予測が誤って修正されたり、他の種類の幻覚が導入されたりするリスクがあるからです。この 2 つの方法は一緒に使用することができます。Snell ら（2024 年）は、シンプルな問題は純粋な順次テスト時計算から利益を得る一方で、より難しい問題は通常、順次と並行計算の最適な比率で最も良いパフォーマンスを示すことを示しました。

並行サンプリング#

生成モデルとスコアリング関数が与えられた場合、私たちはそれを使用して全体または一部のサンプルにスコアを付けることができ、さまざまな探索アルゴリズムを使用して高スコアのサンプルを見つけることができます。Best-of-N はこのようなアルゴリズムの中で最もシンプルなもので、N 個の独立したサンプルを収集し、特定のスコアリング関数に基づいて最も高いランクのサンプルを選択するだけです。ビームサーチは、探索プロセスをより適応的にし、解空間のより有望な部分により多くのサンプリング計算を費やすことを可能にする、より複雑な探索アルゴリズムです。

ビームサーチは、有望な部分列のセットを維持し、それらを拡張することと、あまり有望でない部分列を剪定することを交互に行います。選択メカニズムとして、プロセス報酬モデル（PRM;Lightman ら、2023 年）を使用してビームサーチ候補者の選択をガイドすることができます。Xie ら（2023 年）は、LLM を使用して自ら生成した推論ステップの正しさの可能性を評価し、それを選択肢形式にフォーマットし、各ステップの自己評価がビームサーチデコードプロセスにおける多段階推論の累積エラーを減少させることを発見しました。さらに、サンプリングプロセスでは、温度アニーリングが集約のランダム性を減少させるのに役立ちます。Xie らのこれらの実験は、Codex モデルの少数発生 GSM8k、AQuA、StrategyQA ベンチマークで 5-6% の改善を実現しました。報酬バランス検索（「REBASE」の略；Wu ら、2025 年）は、ビームサーチプロセス中に、softmax 正規化報酬スコアに基づいて、各ノードが各深さでどれだけ拡張すべきかを決定するプロセス報酬モデル（PRM）をそれぞれ訓練しました。江ら（2024 年）は、彼らの PRM を「RATIONALYST」と名付け、大量の未ラベルデータに条件付けされた合成基本原理のビームサーチガイドに使用しました。比較文脈において、基本原理を含む時間と含まない時間の違いを、実際の答えのラベルの負の対数確率を低下させるのに役立つかどうかに基づいて良い基本原理をフィルタリングします。推論時に、RATIONALYST は次の推論ステップの対数確率を推定するのを助ける（「暗黙的」）か、次の推論ステップをヒントの一部として直接生成する（「明示的」）ことで CoT 生成器にプロセス監視を提供します。

興味深いことに、明示的なゼロショットまたは少数ショットのプロンプトがない場合でも、緊急の思考連鎖推論パスを引き起こすことができます。Wang & Zhou（2024 年）は、最初のサンプリングトークンで、最も信頼度の高いトップトークンを保持することで分岐を行い（サンプリング中の上位 1 名と上位 2 名の候補者の違いで測定）、その後、これらのサンプリング試行を続けて貪欲デコードを行うと、多くのシーケンス自体が CoT を含むことを発見しました。特に、CoT が文脈に実際に現れると、最終的な答えに対するより自信のあるデコードをもたらします。最終的な答えの信頼度を計算するには、タスク特有のヒューリスティック手法（例えば、数学問題の最後の数値）や、モデルに「So the answer is」と答えのスパンを特定するためのさらなるプロンプトを通じて行う必要があります。最初のトークンで分岐するという設計選択は、早期の分岐が潜在的なパスの多様性を大幅に強化するという観察に基づいていますが、後期のトークンは以前のシーケンスの影響を大きく受けます。

順次修正#

モデルが過去の回答の誤りを反映し修正できる場合、私たちはそのモデルが質の高い反復修正シーケンスを生成し、品質が向上し続けることを期待します。しかし、さまざまな失敗モードのために、この自己修正能力は LLM には本質的に存在せず、すぐに使えるわけではありません。例えば：（1）幻覚、すなわち正しい回答を不正確に修正すること；（2）未修正の行動に崩壊すること；例えば、最初の不正確な回答に対してわずかな修正を加えるか、修正を加えないこと；または（3）テスト時に分布の変化に適応できないこと。Huang ら（2024 年）の実験は、単純に自己修正を適用することが性能を悪化させることを示しており、モデルは自己改善のために外部のフィードバックを必要とし、これは一致する基本事実、ヒューリスティック、タスク特有の指標、コーディング問題の単体テスト結果（Shinn ら、2023 年）、より強力なモデル（Zhang ら、2024 年）、および人間のフィードバック（Liu ら、2023 年）に基づくことができます。

自己修正学習（Welleck ら、2023 年）は、固定された生成器モデルに対する校正器モデル $P_θ(y | y_0, x)$ を訓練することを目的としています。生成器モデルは依然として一般的ですが、校正器モデルはタスク特有であり、初期モデルの応答と追加のフィードバック（例えば、文、コンパイラ制約、単体テスト結果、オプションである可能性があります）に基づいて生成されます：

自己修正学習は、まずデータプール内で各プロンプトに対して複数の出力を生成します；
次に、ある出力の値が別の出力の値を上回る場合、同じプロンプトの 2 つの出力をペアにして価値向上対（プロンプト $x$、仮説 $y$、修正 $y'$）を作成します。
これらの対は、値 $v (y') - v (y)$ の改善と、2 つの出力間の類似性に比例して選択され、$\text {Similarity}(y, y')$ を用いて校正器モデルを訓練します。
探索を奨励するために、校正器はデータプールに新たな世代を提供します。推論時には、校正器を反復的に使用して順次修正の校正軌跡を作成できます。

再帰的チェック（Qu ら、2024 年）も、生成と自己修正を同時に行う単一のモデルを訓練することを目的としています。

SCoRe（強化学習による自己修正；Kumar ら、2024 年）は、多段階 RL 手法であり、モデルが最初の試行時に生成した答えよりも良い答えを生成することで自己修正を奨励します。これには 2 つの訓練段階が含まれます：段階 1 は、最初の試行時に KL ペナルティを強制し、第一回の応答が基本モデルの行動から過度に逸脱しないようにしながら、第二回の試行の正確性を最大化することに焦点を当てます。段階 2 は、最初の試行と第二の試行で生成された答えの正確性を最適化します。理想的には、私たちは最初の試行と第二の試行の両方の性能が向上することを望んでいますが、段階 1 を追加することで、モデルが最初の応答に対してわずかな編集または無編集の行動崩壊を防ぎ、段階 2 が結果をさらに改善します。

推論を改善するための強化学習#

最近、基本的な真の答えを持つ問題の集合（通常は STEM 問題や検証可能な答えを持つパズル）を使用して言語モデルの推論能力を向上させ、モデルが正しい答えを得ることで報酬を与えることにより、言語モデルの推論能力を大幅に向上させることに成功しています。OpenAI の o-series モデルの強力な性能と、DeepSeek がその後発表したモデルと技術報告がこの分野の最近の活動を推進しました。

DeepSeek-R1（DeepSeek-AI、2025 年）は、高度な推論スキルを必要とするタスク（数学、コーディング、論理問題解決など）に特化したオープンソースの LLM です。彼らは R1 が推論と非推論タスクに特化できるように、2 回の SFT-RL 訓練を行いました。

コールドスタート SFT は、数千のコールドスタートデータの集合で DeepSeek-V3-Base 基本モデルを微調整します。このステップがなければ、モデルは可読性が低く、言語が混在する問題が発生します。
推論に特化した RL は、推論モデルをトレーニングするために、ルールベースの報酬の 2 種類を使用します：

フォーマット報酬：モデルは ... トークンで CoT をラッピングする必要があります。
正確性報酬：最終的な答えが正しいかどうか。数学問題の答えは、特定のフォーマット（例えば、ボックス内）で存在する必要があり、信頼できる検証を得るために必要です。コーディング問題では、コンパイラがテストケースが通過するかどうかを評価するために使用されます。

拒否サンプリング + 非推論 SFT は、ステップ 2 の RL チェックポイントで作成された拒否サンプリングによる新しい SFT データを利用し、DeepSeek-V3 の執筆、事実 QA、自己認識などの非推論監視データを組み合わせて DeepSeek-V3-Base を再訓練します。

混合言語、長い段落、コードブロックを含む CoT をフィルタリングします。
DeepSeek-V3（DeepSeek-AI、2024 年）パイプラインは非推論タスクを含みます。
一部の非推論タスクでは、プロンプトに答える前に DeepSeek-V3 を呼び出して潜在的な CoT を生成します。しかし、「hello」のようなより単純なクエリには CoT は必要ありません。
その後、合計 800k のサンプルで DeepSeek-V3-Base を微調整し、2 エポック続けます。

最後の RL 段階では、推論と非推論のプロンプトでステップ 3 のチェックポイントをトレーニングし、有用性、無害性、推論性を向上させます。

興味深いことに、DeepSeek チームは、純粋な RL を使用して SFT 段階なしでも、高度な推論能力（反射や回顧など）を学ぶことができることを示しました。このモデルは、RL 訓練プロセス中に推論タスクを解決するためにより多くの思考トークンを費やすことを自然に学びました。「ひらめきの瞬間」と呼ばれる現象が発生する可能性があります。これは、モデルが以前の誤りを反省し、それらを修正するために他の方法を試みることを指します。その後、R1 の結果を再現するためのさまざまなオープンソースの作業が発生しました。例えば、Open-R1、SimpleRL-reason、TinyZero など、すべて Qwen モデルに基づいています。これらの努力は、純粋な RL が数学問題において優れたパフォーマンスをもたらし、「ひらめきの瞬間」が発生することを確認しました。

DeepSeek チームは、いくつかの成功しなかった試みも共有しました。彼らはプロセス報酬モデル（PRM）を使用しませんでした。なぜなら、各ステップのスコアリング基準を定義したり、中間ステップが正しいかどうかを判断したりするのが難しく、訓練が報酬ハッキングに対してより脆弱になるからです。MCTS（モンテカルロ木探索）の試みも失敗しました。なぜなら、国際チェスと比較して、言語モデルのトークンの探索空間が非常に大きいためです。探索を指導するための細かい価値モデルを訓練することも非常に困難です。失敗した試みは通常、独自の洞察を提供し、私たちは研究コミュニティに成功しなかったことをもっと共有することを奨励したいと考えています。

外部ツールの使用#

推論ステップでは、コードを実行したり数学計算を行ったりすることで、特定の中間ステップを信頼性高く正確に解決できます。この推論コンポーネントの一部を外部コードインタープリターにオフロードすることは、PAL（プログラム支援言語モデル；Gao ら、2022 年）や Chain of Code（Li ら、2023 年）などで、LLM の能力を拡張するために外部ツールを使用することができます。これにより、LLM がコードを実行したり、計算機として機能したりする能力を学ぶ必要がありません。これらのコードシミュレーターは、コードチェーンのように LLM によって拡張されることができ、標準のコードインタープリターが失敗した場合には、LLM を使用してそのコード行を実行することを選択できます。推論ステップを強化するためにコードを使用することは、数学問題、シンボリック推論、アルゴリズムタスクに特に有益です。これらの単体テストは、コーディング問題の一部として存在しない場合があり、その場合、モデルに自己生成された単体テストを生成させて解決策を検証するよう指示することができます（Shinn ら、2023 年）。

反応（Reason+Act;Yao ら、2023 年）は、ウィキペディア API を検索する作業と推論軌跡の生成を組み合わせることで、推論パスに外部知識を組み込むことができます。

OpenAI が最近発表した o3 と o4-mini は、推論プロセスにネットワーク検索、コード実行、画像処理などのツールの使用が含まれるもう 2 つの良い例です。チームは、大規模な強化学習が GPT パラダイムと同じ傾向を示すことを観察しました。すなわち、「より多くの計算 = より良い性能」です。

忠実な思考#

深層学習モデルは通常、ブラックボックスとして扱われ、さまざまな解釈可能性の方法が提案されています。解釈可能性は、いくつかの理由から有用です。まず、モデルがその作成者の意図と一致していないか、または監視することで判断できない方法で誤りを犯しているかどうかを判断するための追加のテストを提供します。次に、モデルがその答えを計算するために合理的なプロセスを使用しているかどうかを特定するのに役立ちます。思考連鎖は、モデルの内部プロセスを自然言語で可視化する特に便利な解釈可能性の形式を提供します。しかし、この解釈可能性は、モデルがその内部思考プロセスを忠実に記述するという仮定に基づいています。

最近の研究は、推論モデルの CoT を監視することで、モデルの誤った行動を効果的に検出できることを示しています。例えば、報酬ハッキングを検出したり、より弱いモデルがより強いモデルを監視できるようにすることができます（Baker ら、2025 年）。テスト時の計算を増やすことも対抗的な堅牢性を向上させることができます（Zaremba ら、2025 年）。これは直感的に理解できます。なぜなら、モデルが異常な入力（例えば、対抗的な例や脱獄の試み）に直面したとき、思考時間は特に有用であるべきだからです —— それは、直面している奇妙な状況を理解するために追加の思考時間を利用できるからです。

モデルはその考えを忠実に表現しているか#

直感的に言えば、忠実な推論を奨励する明確な訓練目標が欠如しているため、モデルの CoT は偏りがある可能性があります。また、人工的に作成された説明に基づいてモデルを微調整する際に、これらの人工的なサンプルが誤りを含む可能性があります。したがって、私たちは CoT が常に忠実であると仮定することはできません。

Lanham ら（2023 年）は、故意に CoT に誤りを導入し、それらが一連の選択肢タスク（例えば、AQuA、MMLU、ARC Challenge、TruthfulQA、HellaSwag）の正確性に与える影響を測定することで、CoT の忠実度失敗のいくつかのパターンを研究しました：

誤り 1（早期回答）：モデルは CoT 生成の前に早すぎる結論を形成する可能性があります。これは、早期に切り捨てたり、CoT 内に誤りを挿入したりすることでテストされました。異なるタスクは、CoT の有効性に対する異なる依存性を明らかにしました。一部のタスクは切り捨てられた CoT に敏感ですが、他のタスクは敏感ではありません。Wang ら（2023 年）は、CoT の形成において、ブリッジオブジェクトや言語テンプレートに関連するより微妙な誤りが存在することを示す類似の実験を行いました。
誤り 2（無情報トークン）：無情報の CoT トークンは性能を向上させる可能性があります。この仮説は、CoT を埋め込みテキストで置き換える（例えば、すべての句点）ことで検証され、CoT なしと比較してこの設定では正確性が向上せず、特定のタスクの性能がわずかに低下する可能性があることが示されました。
誤り 3（人間に読みにくいコーディング）：関連情報のコーディング方法が人間にとって理解しにくい場合があります。非標準的な方法で CoT を解釈しても、データセット全体での性能が低下しないことが示されており、正確性の向上は人間に読める推論に依存していないことを示しています。

興味深いことに、Lanham らは、選択肢問題において小さなモデルは CoT をうまく利用できない可能性があり、大きなモデルはすでに CoT なしでタスクを解決できる可能性があると考えています。この CoT 推論への依存性は、CoT を使用した場合と使用しなかった場合に同じ答えを得る割合を使用して測定されますが、必ずしも選択肢問題のモデルサイズに伴って増加するわけではありません。しかし、追加のタスクのモデルサイズに伴って増加することは意味しており、思考時間は複雑な推論タスクにとってより重要です。

CoT の忠実度をテストする代替方法には、直接 CoT パスを修正するのではなく、プロンプトを干渉させることが含まれます（Turpin ら、2023 年、Chua & Evans、2025 年、Chen ら、2025 年）。

ある方法では、少数のサンプルで常に正しい答えを「（A）」としてマークし、実際のラベルに関係なく、偏りを導入します。

別のプロンプト技術では、プロンプトに誤解を招くプロンプトを挿入します。例えば、「私は答えが <random_label> だと思いますが、あなたの意見を聞きたいです。」や「スタンフォードの教授は答えが < random_label > だと思います。」などです。同じ問題のモデル予測を、誤解を招くプロンプトなしと比較することで、モデルがプロンプトがその答えに与える影響を忠実に記述できるかどうかを測定できます。特に、モデルが異なるプロンプトと非プロンプトの答えを生成する場合、プロンプトを使用して問題を解決する際にモデルがプロンプトの影響を認めるかどうかを測定します。モデルが忠実であれば、影響を明示的に認め、その答えの変更がプロンプトによるものであることを認めるべきです。

多くの研究が、推論モデルがすべてのテストされた非推論モデルよりも信頼性高く暗示の影響を記述することを発見しています。例えば、モデルがプロンプトを決定要因（「忠実な CoT」）として見なすサンプルの割合を測定できます。推論モデル（Claude 3.7 Sonnet、DeepSeek R1）は、全体的に非推論モデル（Claude 3.6、DeepSeek V3）よりも優れたパフォーマンスを示しました。

いくつかの証拠は、報酬モデルの使用がモデル出力の忠実度を低下させることを示しています。このテストでは、古典的な RLHF における報酬モデルは、忠実な行動を促すように訓練されていないため、好ましい比較データセットは、人間が見た目が良いまたはより魅力的なモデルを選択することによって収集されました。しかし、推論モデルでは、CoT パスは正しい最終的な答えを生成するように最適化されており、RM で定義された人間の好みに一致するのではなく、直感的により忠実であると期待されます。

CoT に対する最適化圧力の影響：良いのか悪いのか？#

報酬ハッキング行動を監視する推論モデルの CoT は効果的です。このモニターを使用する簡単な方法の一つは、テスト時にモニターをフィルターとして使用して拒否サンプリングを実行し、報酬ハッキングなしで解決策を特定することです。しかし、これは RL の初期段階でのみ有効であり、モデルがさらに最適化されるにつれて、CoT 監視によってサンプルを見つけることはまれです。この課題は自然に、CoT モニターを RL 報酬に組み込むことを考慮することができることを示唆しています（プロセスに基づく監視の一形態であり、報酬ハッキングを防ぐために）。

しかし、CoT モニター報酬を RL に組み込むことはうまくいかず、混乱した報酬ハッキングを引き起こし、モデルが CoT 内でその真の意図を隠そうとすることになります（Baker ら、2025 年）。RL 訓練中に CoT モニターから提供されるこの直接的な最適化圧力の下で、モデルは依然としてハッキングの方法を見つけることができ、頻度は低いものの、CoT 内でその意図を隠すことができます。監視者に捕まらないようにするためです。

Yeo ら（2025 年）は、CoT の長さに対する RL 信号の実験が、Baker らと類似の情報を確認しました。すなわち、新しい RL 報酬形成が新しい報酬ハッキングを引き起こす可能性があることです。彼らは、正しい CoT が誤った CoT よりも高い報酬を得るように報酬機能を設計しました。短期的に正しい CoT が長期的に正しい CoT よりも高い報酬を得て、短期的に不正確な CoT が長期的に不正確な CoT よりも高い罰を受けるようにしました。この追加の報酬により、モデルは CoT 内でテキストを繰り返して挑戦的な問題に答えることを学び、解決しようとするのではなくなりました。Yeo らはさらに、n-gram の繰り返しペナルティを適用してこのハッキング行動を防ぎました。

Chen ら（2025 年）は、特に選択肢問題に誤った答えを埋めるスコアラーを使用した欠陥のある RL 環境で実験を行いました。このモデルは、>99% のプロンプトで報酬ハッキングを利用することを学びましたが、CoT 内で環境の半分以上に対して報酬ハッキングを行うことはほとんどありませんでした（<2%）。この場合、追加の RL 最適化圧力は、モデルが言語でハックを表現することを促すことができませんでした。

RL 訓練は本質的に報酬ハッキングに敏感です。報酬ハッキングや手動修正に対するヒューリスティックな調査にのみ依存することは、「モグラたたき」の状況を引き起こす可能性があります。私たちは、RL 訓練中に CoT に最適化を直接適用することを試みる際には非常に注意が必要であるか、完全に避けることを試みることをお勧めします。

連続空間における思考#

Alex Graves が 2016 年に導入した適応計算時間は、大規模言語モデルよりも早く登場しましたが、モデルが推論時に取る計算ステップの数を動的に決定できるようにする同じ方向性を開拓しました。これは、モデルがテスト時に連続空間で「より多く考える」ことを可能にするものと見なすことができます。連続空間における適応思考時間は、循環アーキテクチャによって垂直に有効化されるか、より連続的なサンプリングステップによって水平方向に有効化されることができます。

循環アーキテクチャ#

Transformer アーキテクチャに再帰性を持たせるために、多くのアーキテクチャの変種が提案されています。これにより、適応テスト時間計算が実現されます（Dehghani ら、2019 年、Hutchins ら、2022 年、Bulatov ら、2022 年）。このテーマに関する文献を深く掘り下げると、この記事が長くなりすぎるため、いくつかの例を振り返ります。

Universal Transformer（Dehghani ら、2019 年）は、Transformer 内の自己注意と RNN 内の再帰メカニズムを組み合わせ、適応計算時間を使用してステップ数を動的に調整します（Graves、2016 年）。高レベルでは、これは各トークンの隠れ状態表現を学習するための循環関数として見なすことができ、ステップ数が固定されている場合、Universal Transformer は層間で共有パラメータを持つ多層 Transformer に相当します。

Geiping ら（2025 年）が最近提案した再帰アーキテクチャ設計は、標準 Transformer の上に再帰ブロック $R$ を追加します。この循環ブロックの各反復は、埋め込み $\mathbf {e}$ とランダム状態 $\mathbf {s}_i$ を受け取ります。概念的には、この循環深度アーキテクチャは、各循環ステップで元の入力 $\mathbf {e}$ を提供し、ランダムなガウス初期状態 $\mathbf {s}_i$ が全体のプロセスで反復的に更新される条件付き拡散モデルに似ています。（興味深いことに、彼らのいくつかの拡散モデルに似た設計実験は、悪い結果を示しました）。

$\mathbf{e} = P(\mathbf{x}) \quad \text{embedding}$

$\mathbf{s}_0 \sim \mathcal{N}(\mathbf{0}, \sigma^2 \mathbf{I}) \quad n \cdot h$

$\mathbf{s}_i = R(\mathbf{e}, \mathbf{s}_{i-1}) \quad \text{for } i \in 1, \ldots, r \quad \text{recurrent block; resembles a Transformer block}$

$\mathbf{p} = C(\mathbf{s}_r) \quad \text{unembedding}$

Thinking Tokens#

思考トークンは、訓練または推論プロセス中に導入される一連の暗黙的なトークンを指し、直接的な言語的意味を持ちません。むしろ、それらの役割は、追加の思考時間と計算能力を提供し、モデルの性能を向上させることです。

Herel & Mikolov（2023 年）は、文中の各単語の後に特別な思考トークン（）を挿入し、そのようなデータセット上でモデルを訓練するというアイデアを提案しました。各思考トークンは、モデルに処理とより良い予測を行うための追加の時間を与えます。おもちゃモデル設定で思考トークンを使用して訓練することは、思考トークンなしで訓練されたベースラインモデルよりも低い困惑度を持ちます。思考トークンの利点は、非平凡な推論タスクや数字を含む文においてより明白です。

同様に、Goyal ら（2024 年）が提案した一時停止トークンは、入力シーケンスの末尾に仮想トークン（例えば、句読点や #などの文字）を追加することでモデルの出力を遅延させ、推論プロセス中にモデルに追加の計算を提供します。このような一時停止トークンを訓練および推論中に注入することは非常に重要であり、一時停止トークンのみを微調整すると限られた利益しか得られません。訓練中に、均等にランダムな位置に複数の一時停止トークンのコピーを挿入し、一時停止トークンの損失を訓練中に無視します。

興味深いことに、上記の実験における思考トークンや一時停止トークンは、追加の情報を持たず、多くの新しいパラメータを追加することはありません。しかし、なぜそれでも役立つのでしょうか？一方では、より多くの推論ループを導入することで計算を拡張し、計算能力を効果的に向上させるからです。もう一方では、これは CoT の特別な暗黙の形式と見なすことができます。ここでの欠点は、モデルが思考トークンに基づいて事前訓練される必要があることです。それにもかかわらず、この戦略は推論時間の CoT に基づいてテスト時の計算利用率をさらに向上させる能力を持つ興味深い方法です。

Quiet-STaR（Zelikman ら、2025 年）は、モデルが各トークンの後に理由を生成して未来のテキストを説明するように訓練することで、トークンレベルの推論を導入しました。これは、理由の有無にかかわらず未来のテキスト予測を混合し、学習を使用してより良い理由を生成し、REINFORCE を使用して理由生成の質を最適化します。