微软开源 Phi-Ground：40亿参数模型精准定位屏幕点击坐标，多项基准超越Operator与Claude

查找币:余老师 | 行业资讯 | 2026-05-10 04:16 | 2 次浏览 | 0 条回复

查找币行业资讯行业资讯 Web3安全区块链

**发布时间：** 2025年4月 **来源：** 查找币安全团队技术分析 --- ## 一、行业背景：AI操控电脑的“最后一厘米”难题在AI Agent（智能代理）快速发展的当下，如何让大语言模型（LLM）像人类一样精准操控电脑界面，成为技术突破的关键瓶颈。传统模型在“看截图、点哪里”的任务上，往往因坐标定位不精确、高分辨率屏幕适配困难等问题，导致实际应用效果不佳。近日，微软开源了Phi-Ground模型家族，专门解决AI在屏幕操作中“该点哪里”的核心问题。该模型通过简单的输入输出设计，在多项基准测试中实现了对OpenAI Operator和Claude Computer Use的超越，引发了行业广泛关注。 --- ## 二、核心技术解析：Phi-Ground如何实现精准点击 ### 2.1 模型架构与数据规模 Phi-Ground模型家族包含多个参数版本，其中开源版本为40亿参数。其核心任务逻辑如下： - **输入**：一张屏幕截图 + 一条自然语言指令（如“点击蓝色设置图标”） - **输出**：精确的屏幕点击坐标（如“523, 417”）微软团队使用了超过4000万条训练数据，对模型进行了大规模验证。值得注意的是，团队发现此前学术论文中常用的三类训练技巧，在数据量拉大后全部失效，而真正有效的做法反而十分简洁。 ### 2.2 关键创新点 | 技术维度 | 传统做法 | Phi-Ground做法 | 效果对比 | |---------|---------|---------------|---------| | 坐标表示 | 设计专门的位置词汇表 | 坐标直接作为普通数字输出 | 避免模型崩溃，训练稳定性提升 | | 输入顺序 | 图像优先或混合输入 | 文字指令排在图片前面 | 准确率显著提升 | | 强化学习 | 主要用于语言推理任务 | 用于纯视觉点击预测任务 | 微调后仍能提升准确率 | | 高分辨率适配 | 直接处理原始截图 | 按比例缩小后贴到大白底画布 | 小按钮识别效果显著 | --- ## 三、基准测试表现：多项第一，超越主流模型 ### 3.1 核心测试结果在Showdown基准测试中，Phi-Ground（40亿参数版本）在搭配大模型进行指令规划后，点击准确率**超过了OpenAI Operator和Claude Computer Use**。此外，在ScreenSpot-Pro等五项评测中，Phi-Ground在百亿参数以下的模型类别中，**全部拿下第一名**。 ### 3.2 测试场景覆盖 - 普通网页操作（如表单填写、按钮点击） - 复杂专业软件（如Photoshop、CAD工具） - 高分辨率屏幕（4K及以上，按钮仅占屏幕面积0.07%） --- ## 四、技术细节深度解读 ### 4.1 坐标输出的“减法”策略此前多篇学术论文为坐标专门设计了一套位置词汇表，希望模型像“说单词”一样输出坐标。然而，大规模训练时，这些新词根本学不好，反而导致模型崩溃。 Phi-Ground团队的做法极其简单：**坐标直接当普通数字输出**。例如，点击坐标“523, 417”直接作为数字序列输出。这一“减法”策略不仅避免了模型学习新词汇的困难，还显著提升了训练稳定性和最终准确率。 ### 4.2 输入顺序的“先文字后图像”原则大模型读取信息是单向的。团队发现，将文字指令排在图片前面输入，效果远优于先看图再读指令。 - **指令优先**：先读到“点击蓝色设置图标”，再看图时，模型处理像素时就已经知道该找什么 - **图像优先**：先看图，模型只能盲扫一遍，效率低下这一发现对AI Agent的设计具有普遍指导意义：**在视觉任务中，任务指令的优先级应高于视觉输入**。 ### 4.3 强化学习在纯视觉任务中的意外收获强化学习（RL）通常只用于需要推理的语言任务。Phi-Ground团队发现，**DPO（Direct Preference Optimization，一种强化学习方法）** 在纯视觉点击预测任务上同样有效。具体做法： 1. 让模型对同一张图做多次点击预测 2. 挑出点对了和点错了的结果 3. 进行对比训练（DPO）即使模型已经经过充分微调，这一步仍能明显提高准确率。这一发现为AI Agent的感知能力提升提供了新的技术路径。 ### 4.4 高分辨率屏幕的适配策略针对4K高分屏上按钮太小的问题（一个按钮可能只占屏幕面积的0.07%），团队在训练时采用了**缩放+白底画布**策略： - 将截图按比例缩小 - 贴到一张大白底画布上 - 模拟高分屏下元素极小的真实场景这一招在Photoshop等复杂专业软件上效果尤为明显，准确率提升幅度显著。 --- ## 五、行业影响与安全启示 ### 5.1 对AI Agent发展的推动 Phi-Ground的开源，意味着AI操控电脑的“最后一厘米”问题得到了有效解决。未来，AI Agent在自动化办公、软件测试、远程控制等领域的应用将更加成熟。 ### 5.2 安全团队关注点作为查找币安全团队，我们特别关注以下安全风险： 1. **坐标注入攻击**：如果攻击者能伪造屏幕截图或指令，可能诱导模型点击恶意链接或执行危险操作 2. **权限滥用**：AI Agent一旦获得屏幕操控权限，可能在用户不知情的情况下执行敏感操作 3. **数据泄露**：模型在处理高分辨率截图时，可能无意中暴露用户隐私信息 ### 5.3 应对建议 - 对AI Agent的输入输出进行严格校验 - 建立权限分级机制，限制模型可操作的范围 - 对屏幕截图进行脱敏处理，隐藏敏感信息 --- ## 六、总结与展望微软Phi-Ground的开源，标志着AI在屏幕操控领域迈出了重要一步。其简洁有效的技术方案，为后续研究提供了宝贵的经验： - **减法比加法更有效**：坐标直接输出，避免复杂词汇表 - **指令优先于图像**：输入顺序影响模型理解效率 - **强化学习适用于感知任务**：DPO在视觉任务中仍有提升空间 - **高分辨率适配是关键**：缩放+白底画布策略值得推广未来，随着更多开源模型的涌现，AI Agent的安全性和可控性将成为行业重点关注方向。查找币安全团队将持续跟踪相关技术进展，为用户提供专业的风险评估与防护建议。 --- *本文由查找币安全团队整理发布*

微软开源 Phi-Ground：40亿参数模型精准定位屏幕点击坐标，多项基准超越Operator与Claude

查找币安全研究院

主题延伸阅读