OpenAI 承认 Claude 是最佳的了(狗头)。 刚刚开源的新基准测试 PaperBench,6 款前沿大模子驱动智能体 PK 复现 AI 顶会论文,新版 Claude-3.5-Sonnet 显贵特出 o1/r1 名秩序一。 与旧年 10 月 OpenAI 老到 Agent 机器学习代码工程智商 MLE-Bnch 比拟,PaperBench 更老到玄虚智商,不再是只实行单一任务。 具体来说,智能体在评估中需要复刻来自 ICML 2024 的论文,任务包括领悟论文、编写代码和实行本质。 最...