返回论坛

微软开源 Phi-Ground:40亿参数模型精准定位屏幕点击坐标,多项基准超越Operator与Claude

查找币 行业资讯 行业资讯 Web3安全 区块链

查找币安全研究院

钱包恢复评估 | 链上取证分析 | Web3 事件响应
以合法授权、证据保全、隐私保护和可复核流程为前提,不要求用户在线提交完整私钥或助记词。

查看研究院 研究报告中心
**发布时间:** 2025年4月 **来源:** 查找币安全团队技术分析 --- ## 一、行业背景:AI操控电脑的“最后一厘米”难题 在AI Agent(智能代理)快速发展的当下,如何让大语言模型(LLM)像人类一样精准操控电脑界面,成为技术突破的关键瓶颈。传统模型在“看截图、点哪里”的任务上,往往因坐标定位不精确、高分辨率屏幕适配困难等问题,导致实际应用效果不佳。 近日,微软开源了Phi-Ground模型家族,专门解决AI在屏幕操作中“该点哪里”的核心问题。该模型通过简单的输入输出设计,在多项基准测试中实现了对OpenAI Operator和Claude Computer Use的超越,引发了行业广泛关注。 --- ## 二、核心技术解析:Phi-Ground如何实现精准点击 ### 2.1 模型架构与数据规模 Phi-Ground模型家族包含多个参数版本,其中开源版本为40亿参数。其核心任务逻辑如下: - **输入**:一张屏幕截图 + 一条自然语言指令(如“点击蓝色设置图标”) - **输出**:精确的屏幕点击坐标(如“523, 417”) 微软团队使用了超过4000万条训练数据,对模型进行了大规模验证。值得注意的是,团队发现此前学术论文中常用的三类训练技巧,在数据量拉大后全部失效,而真正有效的做法反而十分简洁。 ### 2.2 关键创新点 | 技术维度 | 传统做法 | Phi-Ground做法 | 效果对比 | |---------|---------|---------------|---------| | 坐标表示 | 设计专门的位置词汇表 | 坐标直接作为普通数字输出 | 避免模型崩溃,训练稳定性提升 | | 输入顺序 | 图像优先或混合输入 | 文字指令排在图片前面 | 准确率显著提升 | | 强化学习 | 主要用于语言推理任务 | 用于纯视觉点击预测任务 | 微调后仍能提升准确率 | | 高分辨率适配 | 直接处理原始截图 | 按比例缩小后贴到大白底画布 | 小按钮识别效果显著 | --- ## 三、基准测试表现:多项第一,超越主流模型 ### 3.1 核心测试结果 在Showdown基准测试中,Phi-Ground(40亿参数版本)在搭配大模型进行指令规划后,点击准确率**超过了OpenAI Operator和Claude Computer Use**。 此外,在ScreenSpot-Pro等五项评测中,Phi-Ground在百亿参数以下的模型类别中,**全部拿下第一名**。 ### 3.2 测试场景覆盖 - 普通网页操作(如表单填写、按钮点击) - 复杂专业软件(如Photoshop、CAD工具) - 高分辨率屏幕(4K及以上,按钮仅占屏幕面积0.07%) --- ## 四、技术细节深度解读 ### 4.1 坐标输出的“减法”策略 此前多篇学术论文为坐标专门设计了一套位置词汇表,希望模型像“说单词”一样输出坐标。然而,大规模训练时,这些新词根本学不好,反而导致模型崩溃。 Phi-Ground团队的做法极其简单:**坐标直接当普通数字输出**。例如,点击坐标“523, 417”直接作为数字序列输出。这一“减法”策略不仅避免了模型学习新词汇的困难,还显著提升了训练稳定性和最终准确率。 ### 4.2 输入顺序的“先文字后图像”原则 大模型读取信息是单向的。团队发现,将文字指令排在图片前面输入,效果远优于先看图再读指令。 - **指令优先**:先读到“点击蓝色设置图标”,再看图时,模型处理像素时就已经知道该找什么 - **图像优先**:先看图,模型只能盲扫一遍,效率低下 这一发现对AI Agent的设计具有普遍指导意义:**在视觉任务中,任务指令的优先级应高于视觉输入**。 ### 4.3 强化学习在纯视觉任务中的意外收获 强化学习(RL)通常只用于需要推理的语言任务。Phi-Ground团队发现,**DPO(Direct Preference Optimization,一种强化学习方法)** 在纯视觉点击预测任务上同样有效。 具体做法: 1. 让模型对同一张图做多次点击预测 2. 挑出点对了和点错了的结果 3. 进行对比训练(DPO) 即使模型已经经过充分微调,这一步仍能明显提高准确率。这一发现为AI Agent的感知能力提升提供了新的技术路径。 ### 4.4 高分辨率屏幕的适配策略 针对4K高分屏上按钮太小的问题(一个按钮可能只占屏幕面积的0.07%),团队在训练时采用了**缩放+白底画布**策略: - 将截图按比例缩小 - 贴到一张大白底画布上 - 模拟高分屏下元素极小的真实场景 这一招在Photoshop等复杂专业软件上效果尤为明显,准确率提升幅度显著。 --- ## 五、行业影响与安全启示 ### 5.1 对AI Agent发展的推动 Phi-Ground的开源,意味着AI操控电脑的“最后一厘米”问题得到了有效解决。未来,AI Agent在自动化办公、软件测试、远程控制等领域的应用将更加成熟。 ### 5.2 安全团队关注点 作为查找币安全团队,我们特别关注以下安全风险: 1. **坐标注入攻击**:如果攻击者能伪造屏幕截图或指令,可能诱导模型点击恶意链接或执行危险操作 2. **权限滥用**:AI Agent一旦获得屏幕操控权限,可能在用户不知情的情况下执行敏感操作 3. **数据泄露**:模型在处理高分辨率截图时,可能无意中暴露用户隐私信息 ### 5.3 应对建议 - 对AI Agent的输入输出进行严格校验 - 建立权限分级机制,限制模型可操作的范围 - 对屏幕截图进行脱敏处理,隐藏敏感信息 --- ## 六、总结与展望 微软Phi-Ground的开源,标志着AI在屏幕操控领域迈出了重要一步。其简洁有效的技术方案,为后续研究提供了宝贵的经验: - **减法比加法更有效**:坐标直接输出,避免复杂词汇表 - **指令优先于图像**:输入顺序影响模型理解效率 - **强化学习适用于感知任务**:DPO在视觉任务中仍有提升空间 - **高分辨率适配是关键**:缩放+白底画布策略值得推广 未来,随着更多开源模型的涌现,AI Agent的安全性和可控性将成为行业重点关注方向。查找币安全团队将持续跟踪相关技术进展,为用户提供专业的风险评估与防护建议。 --- *本文由查找币安全团队整理发布*
在论坛中查看和回复