开云kaiyun除了 AI 之间的 PK-ky官方网站登录入口

11 2026-05
开云kaiyun除了 AI 之间的 PK-ky官方网站登录入口

发布日期：2026-05-11 10:15 点击次数：205
OpenAI 承认 Claude 是最佳的了（狗头）。
刚刚开源的新基准测试 PaperBench，6 款前沿大模子驱动智能体 PK 复现 AI 顶会论文，新版 Claude-3.5-Sonnet 显贵特出 o1/r1 名秩序一。
与旧年 10 月 OpenAI 老到 Agent 机器学习代码工程智商 MLE-Bnch 比拟，PaperBench 更老到玄虚智商，不再是只实行单一任务。
具体来说，智能体在评估中需要复刻来自 ICML 2024 的论文，任务包括领悟论文、编写代码和实行本质。
最终得益如下：
Claude-3.5-Sonnet 断崖式首先，第二名 o1-high 分数只好第一的 60%，第三名 DeepSeek-R1 又只好第二名的一半。
此外 GPT-4o 跨越了推理模子 o3-mini-high 也算一个亮点。
除了 AI 之间的 PK， OpenAI 此次还招募顶尖的机器学习博士对比 o1。
天然最终论断是 AI 在复现顶会论文上还无法特出东说念主类，但张开时辰轴发现，在使命时辰 1-6 小时内 Ai 的程度仍是比东说念主类要快的。
12-24 小时阶段 AI 与东说念主类的程度相配，东说念主类需要使命 24-48 小时身手跨越 AI。
有创业者讴歌 OpenAI 这波竟然 Open 了，况且不护讳竞争敌手的出色发达，我们科技圈就需要这种精神。
Agent 复现顶会论文
PaperBench 中式 20 篇 ICML 2024 Spotlight 和 Oral 论文，条件 AI 创建代码库并实行本质，复制论文后果，且不成使用原作家代码。
OpenAI 与每篇论文的原作家共同制定小心评分尺度，系数包含 8316 个可单独评分的任务。
开卷老到，也等于允许 Agent 有限联网搜索，把原论文代码库和其他东说念主复现的代码库拉黑名单。
好意思满评估进程分为 3 个阶段：
Agent 在 ubuntu 容器中创建并提交复制论文的代码库。
在具有 GPU 走访权限的新容器中实行代码
裁判模子在第三个容器中给复现限度打分
评估时用分级尺度打分，按叶节点、父节点逐级评分，主要揣测打算是系数论文的平均复制分数。
评分亦然由大模子自动实行，本质发现 o3-mini 当裁判的性价比最高。
给每篇论文评分破耗 66 好意思元，比遴聘东说念主类众人当裁判要低廉，速率也更快。
运转评估所需的代码和数据、Docker 镜像等正在 GitHub 冉冉开源。
One More Thing
在论文的附录中，OpenAI 还给出了让 AI 复现顶会论文的 Prompt，有需要的一又友不错学习一下。
BasicAgent System Prompt：
强调智能体要好意思满复制论文，明确最终方向是让运转 reproduce.sh 能复现论文所酌量
指引智能体使用器具冉冉完成任务，幸免一次性实行过多操作
条件智能体充分诈欺时辰优化不停决议，而不是急于提交初步限度
IterativeAgent System/Continue Prompt：
强调时辰很充裕，要冉冉完成任务
每一步都指示智能体使用可用的器具
强调代码编写方式
Task Instructions：
明确任务、可用资源、提交条件等多方面信息
给出代码示例
临了再次强调权限、老到时辰等，还指示 AI 要竟然去实行复现，而不仅仅写一个计算。
就有点像东说念主类准验证上写的科场应知了。
论文地址：
https://openai.com/index/paperbench/
参考聚会：
[ 1 ] https://x.com/OpenAI/status/1907481494249255193
一键三连「点赞」「转发」「小心心」
迎接在辩论区留住你的思法！
— 完 —
速抢席位！中国 AIGC 产业峰会不雅众报名通说念已开启 � � ‍♀️
最新嘉宾曝光啦 � � 百度、华为、AWS、无问芯穹、数势科技、面壁智能、生数科技等十数位 AI 鸿沟创变者将都聚峰会，让更多东说念主用上 AI、用好 AI，与 AI 一同加快成长～
4 月 16 日，就在北京，一说念来深度求索 AI 何如用 � �
� � 一键星标 � �
科技前沿进展逐日见开云kaiyun