SuperCLUE2025年年度测评代码生成总分对比
2026-02-04 14:57:38
30
相关数据
行业数据1
SuperCLUE测评基准2025年年度总体表现(数据截至2026年2月27日)
2026-03-16 08:15:43
29
原图定位
行业数据1
SuperCLUE2025年年度测评科学推理总分对比
2026-02-04 14:57:38
32
原图定位
行业数据1
SuperCLUE2025年年度测评六大任务国内Top3
2026-02-04 14:57:38
32
原图定位
行业数据1
SuperCLUE2025年年度测评数学推理总分对比
2026-02-04 14:57:38
44
原图定位
行业数据1
SuperCLUE2025年年度通用测评推理模型推理效能区间分布(含补测)
2026-02-04 14:57:38
30
原图定位
行业数据1
SuperCLUE2025年年度测评智能体(任务规划)总分对比
2026-02-04 14:57:38
35
原图定位
行业数据1
SuperCLUE2025年年度测评六大任务国内外Top20热力图
2026-02-04 14:57:38
39
原图定位
行业数据1
SuperCLUE2025年年度测评幻觉控制总分对比
2026-02-04 14:57:38
25
原图定位
行业数据1
SuperCLUE2025年年度测评开闭源大模型6大任务平均分对比
2026-02-04 14:57:38
34
原图定位
行业数据1
2025年全年SuperCLUE通用基准测评海内外大模型Top3
2026-02-04 14:57:38
39
原图定位
行业数据1
SuperCLUE2025年年度测评精确指令遵循总分对比
2026-02-04 14:57:38
31
原图定位
行业数据1
SuperCLUE2025年年度通用测评性价比区间分布
2026-02-04 14:57:38
38
原图定位
行业数据1
SuperCLUE2025年年度基准测评Qwen3-Max-Thinking六大任务得
2026-02-04 14:57:38
35
原图定位
行业数据1
SuperCLUE2025年年度基准测评开源模型总分对比
2026-02-04 14:57:38
30
原图定位
行业数据1
国资委79号文件央国企信创替代方案
2024-10-10 08:15:13
21486
原图定位
最新数据
行业数据1
图11 联合国全球数字和可持续贸易便利化调查评分,2025年
2026-04-03 08:30:00
21
原图定位
行业数据1
图10 印度尼西亚针对其前10大出口产品进入美国市场的主要竞争者及其最新的相应关税水平
2026-04-03 08:30:00
23
原图定位
行业数据1
图9 “最坏情况”贸易战对价格的影响,2025 到 2030 年
2026-04-03 08:30:00
16
原图定位
行业数据1
图 8 “最坏情况”贸易战对印度尼西亚前10大农业食品下游需求部门的影响,2025年至2030年
2026-04-03 08:30:00
12
原图定位
行业数据1
图6 印尼对美国的农业出口,2010年至2024年
2026-04-03 08:30:00
15
原图定位
行业数据1
图7 受到美国互惠关税影响最大的五种农业食品产品
2026-04-03 08:30:00
13
原图定位
完整的交互式网站。 评价方式:通过单元测试进行0/1评分 (独立功能函数生成);通过模拟用户交互的功能测试进行0/1评分 (Web应用生成)。 国产开源模型Kimi-K2.5-Thinking 以53.33分位居全球第一,超越 Reasoning等一众海外顶尖模型, Qwen3-Max-2025-09-23也 以47.23分 身Top5。说明国产头部模型已经 齐平甚至微弱领先的跨越。 2.GPT-5.2(high)的“滑铁卢" GPT-5.2(high)在代码生成任务中仅 有30.91分,排名倒数第三,这与我 们的测评机制有关,我们每题设置 了最大推理时长(30分钟),超过 该时长还会有两次重试机会。如果 三次机会全部超时未获取到答案, 那么该题将被记0分。GPT-5.2(high) 由于推理时间过长,存在许多超时
行业数据
原图定位
相关数据
最新数据