返回论坛

谷歌DeepMind发布AI数学研究助手:多Agent架构突破FrontierMath T4基准,解出3道“无人能解”难题

查找币 行业资讯 行业资讯 Web3安全 区块链

查找币安全研究院

钱包恢复评估 | 链上取证分析 | Web3 事件响应
以合法授权、证据保全、隐私保护和可复核流程为前提,不要求用户在线提交完整私钥或助记词。

查看研究院 研究报告中心
**发布时间:** 2025年4月 **来源:** 查找币安全团队技术分析 --- ## 一、事件概述 据查找币安全团队监测,谷歌DeepMind于近日正式发布了一款名为 **AI co-mathematician** 的交互式研究工作台,专为数学家群体设计。该系统采用多Agent协作架构,在目前公认难度最高的研究级数学基准 **FrontierMath Tier 4** 上取得了 **47.9%** 的正确率(解出23/48题),直接超越了此前该基准的最高纪录保持者——GPT-5.5 Pro的 **39.6%** 正确率。 **关键数据速览:** - 基准测试:FrontierMath Tier 4(48道研究级数学题) - AI co-mathematician 成绩:47.9%(23/48) - 此前最高纪录:GPT-5.5 Pro 39.6% - 模型底座:Gemini 3.1 Pro(非新一代底座) - 裸跑成绩:Gemini 3.1 Pro 单独运行仅19% --- ## 二、技术架构解析:重脚手架编排压榨模型潜力 DeepMind 此次并未使用新一代基础模型,而是基于现有的 **Gemini 3.1 Pro** 构建了一套多层Agent框架。值得关注的是,该模型在裸跑状态下仅能取得 **19%** 的正确率,而在接入Agent框架后,成绩直接翻倍至 **47.9%**。 ### 2.1 多层Agent架构设计 该系统架构可概括为以下层级: 1. **顶层:项目协调人(Project Coordinator)** - 负责将研究任务拆解为多条并行工作流 - 动态规划任务优先级与资源分配 2. **中间层:专业子Agent** - **文献检索Agent**:自动检索相关数学论文与定理 - **代码编写Agent**:生成并执行数学验证代码 - **推理Agent**:执行核心逻辑推导与证明构造 3. **底层:审稿Agent委员会** - 由多个独立Agent组成评审会 - 对子Agent生成的证明进行交叉验证与缺陷检测 - 仅在通过评审后方可提交最终结果 ### 2.2 核心结论 DeepMind 通过这一“重脚手架”架构证明:**在顶尖数学推理任务中,编排与协作所能压榨出的能力增量,可能比单纯换装新一代模型还要显著。** 这一发现对整个AI研究社区具有重要启示:未来的模型能力提升,可能更多来自于系统级工程创新,而非单纯依赖参数规模膨胀。 --- ## 三、测试流程与防作弊机制 本次盲测由第三方机构 **Epoch AI** 独立执行,以确保测试结果的公正性。 ### 3.1 测试规则 - **题目来源**:FrontierMath Tier 4,共48道研究级数学题 - **时间限制**:每道题允许运行 **48小时** - **防作弊措施**:DeepMind团队全程无法看到题目内容 - **结果验证**:所有解答需通过审稿Agent委员会验证 ### 3.2 突破性成果 除了整体成绩登顶外,AI co-mathematician 还成功解出了 **3道此前所有模型全军覆没的难题**。这3道题连GPT-5.5 Pro、Claude 4 Ultra等顶级模型都无法解答,进一步凸显了多Agent架构在极端复杂推理任务中的优势。 --- ## 四、实际应用案例:从“副手”到“脑洞同事” 虽然该系统被命名为“副手”(co-mathematician),但在实际使用中,它更像是一位能够提供创新思路的同事。 ### 4.1 真实研究场景 群论专家 **Marc Lackenby** 在研究中利用该系统尝试解决 **Kourovka笔记本** 中的一个公开猜想。系统最初给出的策略被其自身的审稿Agent标记为“有缺陷”,但Lackenby并未直接放弃,而是从这份“废案”中发现了隐藏的巧妙思路,最终自己补上关键缺口,成功完成了证明。 ### 4.2 人机协作新模式 这一案例揭示了AI在数学研究中的独特价值: - **提供意外视角**:即使AI的初始方案有缺陷,其生成的“脑洞”思路仍可能启发人类研究者 - **加速试错过程**:系统可快速生成大量候选策略,供人类筛选与改进 - **验证与迭代**:审稿Agent可自动识别证明中的逻辑漏洞,降低人类研究者的验证负担 --- ## 五、行业影响与展望 ### 5.1 对AI研究社区的启示 - **编排优于换代**:在基础模型能力接近天花板的情况下,系统级工程创新(如多Agent协作、自动化验证)将成为下一阶段能力提升的关键。 - **防作弊机制重要性**:Epoch AI的盲测设计为AI基准测试树立了新标杆,防止模型通过数据泄露或记忆答案作弊。 ### 5.2 对区块链与安全领域的潜在影响 虽然本次发布聚焦数学研究,但其技术架构对区块链行业同样具有参考价值: - **智能合约审计**:多Agent协作架构可应用于智能合约安全审计,通过不同Agent分别执行代码分析、逻辑验证、攻击模拟等任务,提高审计覆盖率与准确性。 - **链上数据分析**:类似的项目协调人+子Agent模式可用于复杂链上数据挖掘,自动识别异常交易、DeFi攻击模式等。 - **零知识证明验证**:AI co-mathematician的推理能力有望辅助零知识证明的构造与验证,降低ZK-Rollup等技术的开发门槛。 ### 5.3 当前限制 - **内测阶段**:目前AI co-mathematician仅对少量数学家开放内测,尚未公开上线 - **计算成本**:每道题48小时的运行时间表明其计算资源消耗巨大,短期内难以大规模商用 - **领域局限**:系统主要针对数学推理优化,在其他领域的泛化能力尚待验证 --- ## 六、结语 DeepMind的AI co-mathematician不仅是数学研究工具的突破,更是对AI系统架构设计思路的一次重要验证。当模型本身的潜力被“榨干”时,通过精心设计的编排与协作框架,我们依然能够获得显著的性能飞跃。对于区块链与Web3安全领域而言,这一思路同样值得借鉴:在现有技术基础上,通过系统级创新,我们或许能够发现更多隐藏在“废案”中的安全洞见。 --- *本文由查找币安全团队整理发布*
在论坛中查看和回复