谷歌DeepMind发布AI数学研究助手：多Agent架构突破FrontierMath T4基准，解出3道“无人能解”难题

查找币:余老师 | 行业资讯 | 2026-05-10 00:21 | 3 次浏览 | 0 条回复

查找币行业资讯行业资讯 Web3安全区块链

**发布时间：** 2025年4月 **来源：** 查找币安全团队技术分析 --- ## 一、事件概述据查找币安全团队监测，谷歌DeepMind于近日正式发布了一款名为 **AI co-mathematician** 的交互式研究工作台，专为数学家群体设计。该系统采用多Agent协作架构，在目前公认难度最高的研究级数学基准 **FrontierMath Tier 4** 上取得了 **47.9%** 的正确率（解出23/48题），直接超越了此前该基准的最高纪录保持者——GPT-5.5 Pro的 **39.6%** 正确率。 **关键数据速览：** - 基准测试：FrontierMath Tier 4（48道研究级数学题） - AI co-mathematician 成绩：47.9%（23/48） - 此前最高纪录：GPT-5.5 Pro 39.6% - 模型底座：Gemini 3.1 Pro（非新一代底座） - 裸跑成绩：Gemini 3.1 Pro 单独运行仅19% --- ## 二、技术架构解析：重脚手架编排压榨模型潜力 DeepMind 此次并未使用新一代基础模型，而是基于现有的 **Gemini 3.1 Pro** 构建了一套多层Agent框架。值得关注的是，该模型在裸跑状态下仅能取得 **19%** 的正确率，而在接入Agent框架后，成绩直接翻倍至 **47.9%**。 ### 2.1 多层Agent架构设计该系统架构可概括为以下层级： 1. **顶层：项目协调人（Project Coordinator）** - 负责将研究任务拆解为多条并行工作流 - 动态规划任务优先级与资源分配 2. **中间层：专业子Agent** - **文献检索Agent**：自动检索相关数学论文与定理 - **代码编写Agent**：生成并执行数学验证代码 - **推理Agent**：执行核心逻辑推导与证明构造 3. **底层：审稿Agent委员会** - 由多个独立Agent组成评审会 - 对子Agent生成的证明进行交叉验证与缺陷检测 - 仅在通过评审后方可提交最终结果 ### 2.2 核心结论 DeepMind 通过这一“重脚手架”架构证明：**在顶尖数学推理任务中，编排与协作所能压榨出的能力增量，可能比单纯换装新一代模型还要显著。** 这一发现对整个AI研究社区具有重要启示：未来的模型能力提升，可能更多来自于系统级工程创新，而非单纯依赖参数规模膨胀。 --- ## 三、测试流程与防作弊机制本次盲测由第三方机构 **Epoch AI** 独立执行，以确保测试结果的公正性。 ### 3.1 测试规则 - **题目来源**：FrontierMath Tier 4，共48道研究级数学题 - **时间限制**：每道题允许运行 **48小时** - **防作弊措施**：DeepMind团队全程无法看到题目内容 - **结果验证**：所有解答需通过审稿Agent委员会验证 ### 3.2 突破性成果除了整体成绩登顶外，AI co-mathematician 还成功解出了 **3道此前所有模型全军覆没的难题**。这3道题连GPT-5.5 Pro、Claude 4 Ultra等顶级模型都无法解答，进一步凸显了多Agent架构在极端复杂推理任务中的优势。 --- ## 四、实际应用案例：从“副手”到“脑洞同事” 虽然该系统被命名为“副手”（co-mathematician），但在实际使用中，它更像是一位能够提供创新思路的同事。 ### 4.1 真实研究场景群论专家 **Marc Lackenby** 在研究中利用该系统尝试解决 **Kourovka笔记本** 中的一个公开猜想。系统最初给出的策略被其自身的审稿Agent标记为“有缺陷”，但Lackenby并未直接放弃，而是从这份“废案”中发现了隐藏的巧妙思路，最终自己补上关键缺口，成功完成了证明。 ### 4.2 人机协作新模式这一案例揭示了AI在数学研究中的独特价值： - **提供意外视角**：即使AI的初始方案有缺陷，其生成的“脑洞”思路仍可能启发人类研究者 - **加速试错过程**：系统可快速生成大量候选策略，供人类筛选与改进 - **验证与迭代**：审稿Agent可自动识别证明中的逻辑漏洞，降低人类研究者的验证负担 --- ## 五、行业影响与展望 ### 5.1 对AI研究社区的启示 - **编排优于换代**：在基础模型能力接近天花板的情况下，系统级工程创新（如多Agent协作、自动化验证）将成为下一阶段能力提升的关键。 - **防作弊机制重要性**：Epoch AI的盲测设计为AI基准测试树立了新标杆，防止模型通过数据泄露或记忆答案作弊。 ### 5.2 对区块链与安全领域的潜在影响虽然本次发布聚焦数学研究，但其技术架构对区块链行业同样具有参考价值： - **智能合约审计**：多Agent协作架构可应用于智能合约安全审计，通过不同Agent分别执行代码分析、逻辑验证、攻击模拟等任务，提高审计覆盖率与准确性。 - **链上数据分析**：类似的项目协调人+子Agent模式可用于复杂链上数据挖掘，自动识别异常交易、DeFi攻击模式等。 - **零知识证明验证**：AI co-mathematician的推理能力有望辅助零知识证明的构造与验证，降低ZK-Rollup等技术的开发门槛。 ### 5.3 当前限制 - **内测阶段**：目前AI co-mathematician仅对少量数学家开放内测，尚未公开上线 - **计算成本**：每道题48小时的运行时间表明其计算资源消耗巨大，短期内难以大规模商用 - **领域局限**：系统主要针对数学推理优化，在其他领域的泛化能力尚待验证 --- ## 六、结语 DeepMind的AI co-mathematician不仅是数学研究工具的突破，更是对AI系统架构设计思路的一次重要验证。当模型本身的潜力被“榨干”时，通过精心设计的编排与协作框架，我们依然能够获得显著的性能飞跃。对于区块链与Web3安全领域而言，这一思路同样值得借鉴：在现有技术基础上，通过系统级创新，我们或许能够发现更多隐藏在“废案”中的安全洞见。 --- *本文由查找币安全团队整理发布*

谷歌DeepMind发布AI数学研究助手：多Agent架构突破FrontierMath T4基准，解出3道“无人能解”难题

查找币安全研究院

主题延伸阅读