SuperCLUE2025年年度基准测评Kimi-K2.5-Thinking六大任务得分
2026-02-04 14:57:38
39
相关数据
行业数据1
Q14: Thinking about the future, where do you see AI having the biggest impact in HR in 2026? Multiple responses allowed.
2026-04-02 08:30:00
23
原图定位
行业数据1
Figure 1. ‘When thinking about reading regularly for pleasure (i.e., at least once a week), what statement is true for you, if any at all?’
2026-03-26 08:30:00
47
原图定位
行业数据1
SuperCLUE测评基准2025年年度总体表现(数据截至2026年2月27日)
2026-03-16 08:15:43
29
原图定位
行业数据1
2025年全年SuperCLUE通用基准测评海内外大模型Top3
2026-02-04 14:57:38
37
原图定位
行业数据1
SuperCLUE2025年年度通用测评推理模型推理效能区间分布(含补测)
2026-02-04 14:57:38
29
原图定位
行业数据1
SuperCLUE2025年年度测评科学推理总分对比
2026-02-04 14:57:38
31
原图定位
行业数据1
SuperCLUE2025年年度测评六大任务国内Top3
2026-02-04 14:57:38
31
原图定位
行业数据1
SuperCLUE2025年年度测评精确指令遵循总分对比
2026-02-04 14:57:38
30
原图定位
行业数据1
SuperCLUE2025年年度测评开闭源大模型6大任务平均分对比
2026-02-04 14:57:38
33
原图定位
行业数据1
SuperCLUE2025年年度测评代码生成总分对比
2026-02-04 14:57:38
29
原图定位
行业数据1
SuperCLUE2025年年度测评海内外大模型6大任务平均分对比
2026-02-04 14:57:38
29
原图定位
行业数据1
SuperCLUE2025年年度测评幻觉控制总分对比
2026-02-04 14:57:38
24
原图定位
行业数据1
SuperCLUE2025年年度测评智能体(任务规划)总分对比
2026-02-04 14:57:38
33
原图定位
行业数据1
SuperCLUE2025年年度测评六大任务国内外Top20热力图
2026-02-04 14:57:38
38
原图定位
行业数据1
国资委79号文件央国企信创替代方案
2024-10-10 08:15:13
21475
原图定位
最新数据
行业数据1
图11 联合国全球数字和可持续贸易便利化调查评分,2025年
2026-04-03 08:30:00
20
原图定位
行业数据1
图10 印度尼西亚针对其前10大出口产品进入美国市场的主要竞争者及其最新的相应关税水平
2026-04-03 08:30:00
23
原图定位
行业数据1
图9 “最坏情况”贸易战对价格的影响,2025 到 2030 年
2026-04-03 08:30:00
16
原图定位
行业数据1
图 8 “最坏情况”贸易战对印度尼西亚前10大农业食品下游需求部门的影响,2025年至2030年
2026-04-03 08:30:00
11
原图定位
行业数据1
图6 印尼对美国的农业出口,2010年至2024年
2026-04-03 08:30:00
14
原图定位
行业数据1
图7 受到美国互惠关税影响最大的五种农业食品产品
2026-04-03 08:30:00
12
原图定位
1.模型介绍。 Kimi-K2.5-Thinking是月之暗面在2026年1月27日发布并开源的最 新原生多模态模型,在Agent、代码、视觉理解等任务上取得开 2.能力优势。 (1)代码。与官方宣传一致,Kimi-K2.5-Thinking在本次通用 子任务和WebCoding子任务),其以53.33分领跑全球。其中, 独立函数生成子任务得分全球第二,Web Coding子任务的得分 全球第一,其前端代码能力十分优秀,具有国际顶尖水平。 (2)智能体-任务规划。Kimi-K2.5-Thinking在智能体任务上取 得68.06分,媲美国际顶尖模型GPT-5.2(high)和Claude-Opus-4.5- (3)复杂推理。Kimi-K2.5-Thinking在数学推理任务上取得 77.39分,位居全球第四,与Gemini-3-Pro-Preview(80.87分)相 差仅3分左右;在科学推理任务上取得67.21分,位于国内Top5, 该模型整体的推理能力位于海内外头部水平。 3.提升方向。 (1)精确指令遵循。Kimi-K2.5-Thinking在该任务上仅取得 24.45分,整体排名居中,与海外最佳模型差距超过26分,与国 内最佳模型差距超过13分,存在一定的提升空间。 (2)幻觉控制。Kimi-K2.5-Thinking在该任务上取得78.54分, 相较于上个版本Kimi-K2-Thinking,有9分左右的提升,整体处 于中上游,但与头部模型还存在10分左右的差距。
行业数据
原图定位
相关数据
最新数据