Gemini 3.5 Flash 内置 computer use：Google 的 Agent 进了一步，但还没到交给它办事

核心摘要 Summary

Google 在 The Keyword 官方博客发布《Introducing computer use in Gemini 3.5 Flash》，时间是 2026 年 6 月 24 日。
computer use 是 Gemini 3.5 Flash 的内置工具，不是独立应用，核心能力是让模型理解并操作电脑或网页界面。
我的判断是：这是一次实用型 Agent 能力升级，但官方没有给出性能、价格和开放范围，开发者可以预研，企业不宜直接按成熟产品采购。

Google 这次说的不是“模型更会聊天”，而是让 Gemini 3.5 Flash 学会操作界面。

2026 年 6 月 24 日，Google 在 The Keyword 官方博客发布《Introducing computer use in Gemini 3.5 Flash》。文中介绍了 Gemini 3.5 Flash 内置的 computer use 工具。

这里要分清一件事：computer use 不是一个独立应用，也不是面向所有人的桌面助理。它是 Gemini 3.5 Flash 的内置工具，目标是让模型理解电脑或网页界面，并通过点击、输入、导航等动作完成任务。

这件事有意思的地方在于，它把 Agent 的问题拉回了现实世界。

很多企业流程并不在漂亮的 API 里，而在浏览器后台、老系统页面、表单和权限弹窗里。模型能不能“看懂并操作界面”，会直接影响 Agent 能不能从演示走进工作流。

但同样要说清：Google 这篇官方博客没有给出 benchmark、成功率、速度、成本、可用地区或开放范围。现在把它说成“全面替代人工操作”，证据不够。

Google 发布的是内置工具，不是万能操作员

官方信息的重点很窄，也很关键：computer use 被放进 Gemini 3.5 Flash，作为模型工具存在。

这说明 Google 想推进的不是单个桌面应用，而是给开发者和 Agent 产品团队一个新能力。模型不只输出文本，还可以理解界面状态，并按任务目标做操作。

这类能力适合处理什么？典型场景包括网页信息整理、表单预填、后台辅助录入、跨页面流程导航。它补的是“没有 API、但有人每天在点页面”的那块空白。

不过，界面操作的风险也比文本问答更硬。模型答错一句话，用户还能判断；模型点错按钮，可能改数据、触发支付、删除记录。

所以现在更合理的判断是：它是 Agent 能力升级，不是成熟托管式员工。

维度	目前可确认的信息	还看不清的变量
产品形态	Gemini 3.5 Flash 内置 computer use 工具	是否面向所有开发者或企业开放
核心能力	理解并操作电脑或网页界面	复杂流程成功率、异常恢复能力
主要对象	开发者、AI Agent 产品团队、自动化流程企业用户	价格、配额、地区、企业权限策略
信息来源	Google The Keyword 官方博客	缺少第三方测试和公开性能数据

这张表也决定了采用姿势。

AI 应用开发者可以把它纳入预研，先做低风险流程验证。Agent 产品团队可以评估是否要把“界面操作”作为下一版能力。企业采购方则不该急着替换现有 RPA 或人工流程，至少要等开放范围、计费方式、安全控制和审计机制更清楚。

它真正瞄准的是“没有 API 的工作”

企业自动化有个老问题：系统越旧，越依赖人手。

财务后台、采购系统、CRM、运营管理工具，经常没有稳定 API。即使有 API，也可能权限复杂、字段混乱、改造成本高。最后还是有人打开网页，一个框一个框填。

computer use 瞄准的就是这里。

传统 RPA 擅长按规则点页面，但怕页面变化。大模型的优势是理解语义，能处理一点变化和模糊指令。问题也在这里：理解能力带来弹性，也带来不确定性。

这就是它和传统自动化的关键差别。

路线	优势	现实限制
API 自动化	稳定、可审计、速度快	很多旧系统没有可用接口，接入成本高
传统 RPA	适合固定页面和重复动作	页面一变容易失效，语义理解弱
computer use 类 Agent	能理解界面和任务意图，适合非标准流程	成功率、权限、安全、失败恢复仍需验证

对开发者来说，最实际的动作不是立刻迁移架构，而是选一两个低风险流程做验证。

比如信息抓取、表单预填、内部系统查询、运营后台辅助操作。这些任务即使失败，也容易回滚，损失有限。

涉及付款、合同提交、客户隐私、权限提升、删除数据的流程，不适合一上来放手。更稳妥的做法是保留人工确认、操作日志和回滚机制。

一句话，先让它当副驾，不要直接交方向盘。

对 Agent 竞争的意义：入口在变，门槛也在变

AI Agent 过去常被卡在“能说不能做”。工具调用、浏览器操作、多步骤任务执行，都是为了解这个问题。

Google 把 computer use 放进 Gemini 3.5 Flash，至少表明一件事：界面操作正在从演示能力变成模型平台能力。它会影响开发者选择底座模型，也会影响 Agent 产品团队怎么设计工作流。

但竞争不只看谁先发布。

真正进入企业主流程，需要回答几件很具体的问题：调用方式是什么，失败了怎么停，权限怎么隔离，日志怎么留，敏感操作怎么二次确认，出了错谁负责。

这些问题没有答案时，产品团队可以试，采购团队应该慢。

更直接地说：

开发者.可以把 computer use 加进技术预研清单，重点测稳定性和异常处理，不要只看演示流畅度。
Agent 产品团队.可以考虑把网页操作做成可选能力，但需要设计人工确认、审计日志和权限边界。
企业用户.如果流程涉及资金、客户数据或核心系统，采购和上线应延后，等开放范围、安全机制和价格信息更清楚。

这里的约束不是保守，而是成本问题。

Agent 做得好，可以少掉大量重复点击。做得不好，排查一次错误可能比人工处理更贵。企业不是不想自动化，而是不愿把不确定性放进核心流程。

Google 这次迈出的步子，价值在“补上界面操作”。真正的考验在后面：它能不能被开发者稳定调用，被企业安全约束，被产品团队做成可交付能力。

回到开头那个问题：Gemini 3.5 Flash 是不是已经会办事了？

Gemini 3.5 Flash 内置 computer use：Google 的 Agent 进了一步，但还没到交给它办事

Computer use

产品定位

核心能力

目标对象

主要价值

适配场景

相对 RPA

成熟度不足

性能未知

开放未知

采用策略

低风险试点

高风险延后

后续门槛

企业约束

最终判断

Google 发布的是内置工具，不是万能操作员

它真正瞄准的是“没有 API 的工作”

对 Agent 竞争的意义：入口在变，门槛也在变