推理模型評測報告：文心X1 Turbo領跑中國國內總分第一

首頁 -> 內地

推理模型評測報告：文心X1 Turbo領跑中國國內總分第一

分享到：

2025-05-29 19:53 | 稿件來源：香港新聞網

【字號：大中小】

香港新聞網5月29日電 5月29日，極客邦科技雙數研究院InfoQ研究中心正式發布《2025推理模型評測報告》，基於邏輯推理、數學推理、多步推理、語言推理、及幻覺控制五大維度，對OpenAI O3、文心X1 Turbo、DeepSeek-R1、Kimi k1.5、Doubao-1.5-thinking-pro、Qwen3-235B-A22B等八款中國國內外主流推理模型展開深度評估。報告顯示，文心X1 Turbo以總分第一的成績領跑國內模型，並在幻覺控制、語言推理等核心維度展現顯著優勢，成為國內首個在五大評測維度中斬獲最多單項冠軍的推理模型。

InfoQ研究中心指出，受“推理時計算拓展”與“可驗證獎勵強化學習”兩大技術範式驅動，全球廠商已進入推理模型密集發布期，OpenAI o1、DeepSeek R1、文心 X1 Turbo、Claude 3.7 Sonnet Reasoning等十餘款推理模型相繼上線，爭奪下一代大模型的“推理入場券”。

根據報告，文心X1 Turbo是本次評測中“單項冠軍數量最多”的模型，在五大細分維度中表現亮眼：在幻覺控制方面，文心X1 Turbo以80.56%的得分位列第一，領先DeepSeek-R1、Qwen3-235B-A22B等模型，有效降低模型生成錯誤或誤導性信息的風險；在語言推理方面，文心X1 Turbo以70.31%的得分位列第一，領先Doubao-1.5-thinking-pro、DeepSeek-R1、Qwen3-235B-A22B等模型；在數學推理方面，OpenAI O3以81.25%的得分位列第一，文心X1 Turbo緊跟其後，位居國內第一。