Google 这次说的不是“模型更会聊天”,而是让 Gemini 3.5 Flash 学会操作界面。
2026 年 6 月 24 日,Google 在 The Keyword 官方博客发布《Introducing computer use in Gemini 3.5 Flash》。文中介绍了 Gemini 3.5 Flash 内置的 computer use 工具。
这里要分清一件事:computer use 不是一个独立应用,也不是面向所有人的桌面助理。它是 Gemini 3.5 Flash 的内置工具,目标是让模型理解电脑或网页界面,并通过点击、输入、导航等动作完成任务。
这件事有意思的地方在于,它把 Agent 的问题拉回了现实世界。
很多企业流程并不在漂亮的 API 里,而在浏览器后台、老系统页面、表单和权限弹窗里。模型能不能“看懂并操作界面”,会直接影响 Agent 能不能从演示走进工作流。
但同样要说清:Google 这篇官方博客没有给出 benchmark、成功率、速度、成本、可用地区或开放范围。现在把它说成“全面替代人工操作”,证据不够。
Google 发布的是内置工具,不是万能操作员
官方信息的重点很窄,也很关键:computer use 被放进 Gemini 3.5 Flash,作为模型工具存在。
这说明 Google 想推进的不是单个桌面应用,而是给开发者和 Agent 产品团队一个新能力。模型不只输出文本,还可以理解界面状态,并按任务目标做操作。
这类能力适合处理什么?典型场景包括网页信息整理、表单预填、后台辅助录入、跨页面流程导航。它补的是“没有 API、但有人每天在点页面”的那块空白。
不过,界面操作的风险也比文本问答更硬。模型答错一句话,用户还能判断;模型点错按钮,可能改数据、触发支付、删除记录。
所以现在更合理的判断是:它是 Agent 能力升级,不是成熟托管式员工。
| 维度 | 目前可确认的信息 | 还看不清的变量 |
|---|---|---|
| 产品形态 | Gemini 3.5 Flash 内置 computer use 工具 | 是否面向所有开发者或企业开放 |
| 核心能力 | 理解并操作电脑或网页界面 | 复杂流程成功率、异常恢复能力 |
| 主要对象 | 开发者、AI Agent 产品团队、自动化流程企业用户 | 价格、配额、地区、企业权限策略 |
| 信息来源 | Google The Keyword 官方博客 | 缺少第三方测试和公开性能数据 |
这张表也决定了采用姿势。
AI 应用开发者可以把它纳入预研,先做低风险流程验证。Agent 产品团队可以评估是否要把“界面操作”作为下一版能力。企业采购方则不该急着替换现有 RPA 或人工流程,至少要等开放范围、计费方式、安全控制和审计机制更清楚。
它真正瞄准的是“没有 API 的工作”
企业自动化有个老问题:系统越旧,越依赖人手。
财务后台、采购系统、CRM、运营管理工具,经常没有稳定 API。即使有 API,也可能权限复杂、字段混乱、改造成本高。最后还是有人打开网页,一个框一个框填。
computer use 瞄准的就是这里。
传统 RPA 擅长按规则点页面,但怕页面变化。大模型的优势是理解语义,能处理一点变化和模糊指令。问题也在这里:理解能力带来弹性,也带来不确定性。
这就是它和传统自动化的关键差别。
| 路线 | 优势 | 现实限制 |
|---|---|---|
| API 自动化 | 稳定、可审计、速度快 | 很多旧系统没有可用接口,接入成本高 |
| 传统 RPA | 适合固定页面和重复动作 | 页面一变容易失效,语义理解弱 |
| computer use 类 Agent | 能理解界面和任务意图,适合非标准流程 | 成功率、权限、安全、失败恢复仍需验证 |
对开发者来说,最实际的动作不是立刻迁移架构,而是选一两个低风险流程做验证。
比如信息抓取、表单预填、内部系统查询、运营后台辅助操作。这些任务即使失败,也容易回滚,损失有限。
涉及付款、合同提交、客户隐私、权限提升、删除数据的流程,不适合一上来放手。更稳妥的做法是保留人工确认、操作日志和回滚机制。
一句话,先让它当副驾,不要直接交方向盘。
对 Agent 竞争的意义:入口在变,门槛也在变
AI Agent 过去常被卡在“能说不能做”。工具调用、浏览器操作、多步骤任务执行,都是为了解这个问题。
Google 把 computer use 放进 Gemini 3.5 Flash,至少表明一件事:界面操作正在从演示能力变成模型平台能力。它会影响开发者选择底座模型,也会影响 Agent 产品团队怎么设计工作流。
但竞争不只看谁先发布。
真正进入企业主流程,需要回答几件很具体的问题:调用方式是什么,失败了怎么停,权限怎么隔离,日志怎么留,敏感操作怎么二次确认,出了错谁负责。
这些问题没有答案时,产品团队可以试,采购团队应该慢。
更直接地说:
- 开发者.可以把 computer use 加进技术预研清单,重点测稳定性和异常处理,不要只看演示流畅度。
- Agent 产品团队.可以考虑把网页操作做成可选能力,但需要设计人工确认、审计日志和权限边界。
- 企业用户.如果流程涉及资金、客户数据或核心系统,采购和上线应延后,等开放范围、安全机制和价格信息更清楚。
这里的约束不是保守,而是成本问题。
Agent 做得好,可以少掉大量重复点击。做得不好,排查一次错误可能比人工处理更贵。企业不是不想自动化,而是不愿把不确定性放进核心流程。
Google 这次迈出的步子,价值在“补上界面操作”。真正的考验在后面:它能不能被开发者稳定调用,被企业安全约束,被产品团队做成可交付能力。
回到开头那个问题:Gemini 3.5 Flash 是不是已经会办事了?
目前只能说,它开始具备办事的手。至于能不能放心交差,还要看开放边界、稳定性和安全机制。
