CRAFT：用共識知識圖譜重建更穩健的 Chain-of-Thought

2天前
讀畢需時 3 分鐘

大語言模型喺推理任務上，經常出現一種尷尬情況：答案啱，但中間步驟未必啱。有時係邏輯錯誤、幻覺或結論跳步；有時則係 overthinking 或 underthinking。Ling 等（2026）喺 arXiv:2604.14121v1 指出，單純將正確最終答案提供畀模型，並唔會穩定提升推理能力。為咗同時處理「步驟內容錯」同「步驟長短失衡」兩類問題，作者提出 CRAFT：透過多條候選推理鏈之間嘅共識部分，建立 Reasoning Knowledge Graph（RKG），再按拓樸次序重組出一條更高質嘅推理 trace。

一、問題意識：答案正確，不代表 reasoning 可信

論文將缺陷大致分成兩類：

Step Internal Flaws：例如邏輯錯誤、幻覺、前後矛盾。
Step-wise Flaws：例如 overthinking（步驟冗長）與 underthinking（關鍵步驟缺失）。

作者認為，過往方法多數只針對其中一種 flaw，例如只處理 overthinking，或只處理 underthinking，假設整個資料集只存在單一問題類型；但真實情況係，同一個 benchmark、甚至同一模型生成嘅不同樣本，往往混雜多種 flaw。呢個現象對 LLM distillation、自動標註同高風險決策場景都會構成風險。

二、先做一個反直覺測試：直接畀答案有冇用？

論文先問一個非常直接嘅問題：如果模型出錯，係咪因為佢唔知最終答案？如果直接將 ground-truth answer 畀佢，再要求佢「解釋點解」，會唔會令推理質量提升？

作者用兩套 benchmark 做系統測試：

PRMBench：偏向逐步驗證推理步驟是否有錯。
ROSCOE：偏向評估整條 reasoning trace 質量。

結果係：提供正確答案並無一致性改善。呢個結論幾重要，因為佢暗示問題唔喺最終 label，而係中間步驟本身嘅生成結構。因此，作者轉向利用多條 trace 之間嘅結構共識，而唔係再對最終答案做 conditioning。

三、CRAFT 點做：由多條推理鏈抽共識，再重建

CRAFT 全名係 Consensus Reasoning knowledge graph Aggregation for Flaw-aware Traces synthesis。整體可分三個模組：

Diverse Trace Generation & Consensus Term Extraction

對同一題目先 rollout 多條候選 reasoning traces，再用 TF-IRF 去抽出跨 trace 嘅重要共識詞項。

Consensus RKG Construction & Anomaly Filtering

將每條 trace 轉成一個 RKG：step 做 node，步驟間關係做 edge；再把多個 per-trace graph 聚合成一個共識圖。過程中會用 z-score 之類方法過濾結構上偏離太大嘅步驟。

Topology-Guided Trace Synthesis

最後唔係揀現成最好嗰條 chain，而係沿住共識圖譜嘅topological order，重新生成一條新 trace。

作者強調，CRAFT 同一般多候選 selection 方法唔同，因為佢唔係從原始 rollouts 揀一條，而係基於跨 trace 共識，合成一條新 reasoning path。

四、效果：唔止答案準確，trace 質量都提升

根據論文摘要同實驗總結，CRAFT 喺邏輯推理同數學推理 benchmark 上，對 label-prediction accuracy 平均帶來 10% 以上改善，並且整體上優於文中比較嘅 baselines。作者同時指出，CRAFT 生成或後處理後嘅 reasoning traces，喺 PRMBench、ROSCOE 等細緻評估維度上亦有更高質量。

論文亦提到，CRAFT 顯示出一個值得注意嘅訊號：LLM 其實大部分步驟本身係正確嘅，真正有價值嘅可能唔係重新由零生成，而係如何利用多條候選 trace 之間嘅一致結構，將好步驟保留、將異常步驟排除。

五、點解值得留意

呢篇文最有意思嘅地方唔止係提出一個新框架，而係佢改寫咗改善 reasoning 嘅思路：

唔再假設「知道答案就會推得更好」；
唔再假設所有推理失誤都係同一類；
將多條 CoT 視為可做結構共識聚合嘅材料，而唔係只做 majority vote 或簡單 rerank。

對做 LLM reasoning、process supervision、RKG / graph-based reasoning，甚至做自動標註與蒸餾嘅團隊，CRAFT 提供咗一條幾清晰嘅方向：先接受單條 trace 可能有噪聲，再用跨 trace 共識去修補與重建。

Reference

Z. Ling, S. Liu, S. Fu, Y. Tang, S. Son, Y. Wan, X. Hu. Correct Prediction, Wrong Steps? Consensus Reasoning Knowledge Graph for Robust Chain-of-Thought Synthesis. arXiv:2604.14121v1 [cs.CL], 15 Apr 2026. https://arxiv.org/abs/2604.14121
PRMBench、ROSCOE 及文中比較基線（如 graph-based reasoning、process supervision、candidate selection）之細節，見原文方法與實驗章節。

AI PREDICTION