SuperCLUE2025年年度基准测评Qwen3-Max-Thinking六大任务得
2026-02-04 14:57:38
35
相关数据
行业数据1
Q14: Thinking about the future, where do you see AI having the biggest impact in HR in 2026? Multiple responses allowed.
2026-04-02 08:30:00
23
原图定位
行业数据1
Figure 1. ‘When thinking about reading regularly for pleasure (i.e., at least once a week), what statement is true for you, if any at all?’
2026-03-26 08:30:00
47
原图定位
行业数据1
SuperCLUE测评基准2025年年度总体表现(数据截至2026年2月27日)
2026-03-16 08:15:43
29
原图定位
行业数据1
MAX全球生态连接
2026-03-15 08:13:46
11
原图定位
行业数据1
Figure 20260211 Dutch Auction Max Rate Example
2026-02-11 08:10:00
21
原图定位
行业数据1
2025年全年SuperCLUE通用基准测评海内外大模型Top3
2026-02-04 14:57:38
37
原图定位
行业数据1
SuperCLUE2025年年度通用测评推理模型推理效能区间分布(含补测)
2026-02-04 14:57:38
29
原图定位
行业数据1
SuperCLUE2025年年度测评科学推理总分对比
2026-02-04 14:57:38
31
原图定位
行业数据1
SuperCLUE2025年年度测评六大任务国内Top3
2026-02-04 14:57:38
31
原图定位
行业数据1
SuperCLUE2025年年度测评精确指令遵循总分对比
2026-02-04 14:57:38
30
原图定位
行业数据1
SuperCLUE2025年年度基准测评开源模型总分对比
2026-02-04 14:57:38
29
原图定位
行业数据1
SuperCLUE2025年年度测评开闭源大模型6大任务平均分对比
2026-02-04 14:57:38
33
原图定位
行业数据1
SuperCLUE2025年年度测评代码生成总分对比
2026-02-04 14:57:38
29
原图定位
行业数据1
SuperCLUE2025年年度测评海内外大模型6大任务平均分对比
2026-02-04 14:57:38
29
原图定位
行业数据1
SuperCLUE2025年年度基准测评Kimi-K2.5-Thinking六大任务得分
2026-02-04 14:57:38
38
原图定位
最新数据
行业数据1
图11 联合国全球数字和可持续贸易便利化调查评分,2025年
2026-04-03 08:30:00
20
原图定位
行业数据1
图10 印度尼西亚针对其前10大出口产品进入美国市场的主要竞争者及其最新的相应关税水平
2026-04-03 08:30:00
23
原图定位
行业数据1
图9 “最坏情况”贸易战对价格的影响,2025 到 2030 年
2026-04-03 08:30:00
16
原图定位
行业数据1
图 8 “最坏情况”贸易战对印度尼西亚前10大农业食品下游需求部门的影响,2025年至2030年
2026-04-03 08:30:00
11
原图定位
行业数据1
图6 印尼对美国的农业出口,2010年至2024年
2026-04-03 08:30:00
14
原图定位
行业数据1
图7 受到美国互惠关税影响最大的五种农业食品产品
2026-04-03 08:30:00
12
原图定位
1.模型介绍. 舰推理模型,在事实知识、复杂推理、智能体等任务上媲美 Preview等国际顶尖模型。 2.能力优势。 (1)复杂推理。Qwen3-Max-Thinking在本次通用测评的推理任 务上取得非常优秀的成绩,具体而言,在数学推理任务中以 80.87分与Gemini-3-Pro-Preview并列全球第一,超越GPT- 5.2(high)、Claude-Opus-4.5-Rea soning等一众国际顶尖模型。在 科学推理任务中也以68.85分取得全球第六的成绩,整体的推理 能力十分强悍。 (2)智能体-任务规划。Qwen3-Max-Thinking在智能体任务上 取得70.13分,身全球Top3,超越Gemini-3-Pro-Preview,媲美 3.提升方向。 (1)幻觉控制。Qwen3-Max-Thinking在该任务上取得74.05分, 相较于Preview版本,有12分左右的提升,但整体处于中游,与 头部模型还存在14分左右的差距,存在一定的提升空间。 (2)精确指令遵循。Qwen3-Max-Thinking在该任务上取得 28.22分,位于中部水平,与海外最佳模型差距近23分,与国内 最佳模型差距超过9分。 (3)代码。Qwen3-Max-Thinking在代码生成任务上取得41.56 分,超越Gemini-3-Flash-Preview,但较最佳模型还有12分左右 的差距。
行业数据
原图定位
相关数据
最新数据