Google 更新了 Chrome Prompt API 文档。最关键的一点是:从 Chrome 138 起,开发者可以在 Origin Trial 中,通过浏览器内的 Gemini Nano 处理自然语言请求。
这里容易误读。
这不是“Chrome 已经全面内置 AI,所有网页都能直接调用”的信号。更准确地说,Google 正在把一部分本地 AI 推理能力,开放给 Web 和 Chrome 扩展开发者试用。
我更在意的是边界。Prompt API 有用,但它现在还不是成熟的 Web AI 标配。
Prompt API 是什么:浏览器内的 Gemini Nano 接口
Prompt API 的核心,是让网页或 Chrome 扩展创建一个 LanguageModel 会话,在浏览器内调用 Gemini Nano。
Gemini Nano 属于 Chrome 内置 AI 体系。但首次使用时,模型仍需要单独下载。开发者不能假设它一定存在,也不能假设它随时可用。
文档里的调用路径也说明了这一点:先用 LanguageModel.availability() 判断可用性,再通过 LanguageModel.create() 创建会话,并在需要时触发下载。
这件事对扩展开发者更直接。
比如用户正在看一篇网页,扩展可以就地做摘要、分类、提取日程、识别联系人信息,或者做内容过滤。相比把页面内容发到云端,本地模型的吸引力在于低延迟和少出站数据。
但这不等于它能替代云端大模型。云端 API 通常追求更强模型、更大上下文和跨平台稳定调用。Prompt API 的位置更窄:贴近浏览器,适合轻量任务,受 Chrome 环境约束。
| 项目 | 当前文档口径 | 对开发者的影响 |
|---|---|---|
| API 状态 | Chrome 138 起 Origin Trial | 不宜直接押注为稳定生产能力 |
| 模型位置 | 浏览器内 Gemini Nano | 不是云端调用,但首次使用需下载模型 |
| 输入 | 文本、图像、音频 | 可做页面理解、图片描述、音频相关输入处理 |
| 输出 | 仅文本 | 不能直接生成图片、音频或视频 |
| 语言 | en、ja、es | 中文等语言不在当前列出的支持范围 |
一句话:它把本地模型接进了 Web,但还没把可用性问题解决掉。
能做什么:会话、多模态、结构化输出
Prompt API 不是只能丢一句 prompt 然后等回复。
它支持 initialPrompts,可以在创建会话时放入初始上下文。也支持 append(),让开发者在用户正式提问前追加材料。对网页摘要、表单提取、内容审核这类任务,这些能力比单轮问答更实用。
结构化输出也值得看。
开发者可以用 responseConstraint 传入 JSON Schema,把模型输出限制在指定结构里。比如只返回一个布尔值做分类,或按固定字段提取网页里的信息。
这对工程落地很关键。自由文本看起来聪明,但很难接进产品流程。结构化输出至少能让下游代码少猜一点。
Chrome 扩展场景还可以使用 temperature、topK 等采样参数。不过文档把这部分能力对应到 Chrome 148 的 Origin Trial。也就是说,想用这些参数控制随机性和候选范围,还要看版本和试验状态。
更现实的做法是:Web 开发者和扩展开发者可以先做原型,但不要把核心链路绑死在 Prompt API 上。
如果是浏览器扩展,可以把它放在可开关的实验功能里。设备不支持时,降级到云端 API、传统规则,或者直接关闭该能力。如果是面向企业用户的 Web 产品,现在更适合做兼容验证,而不是把采购和交付节奏押在它身上。
这不是保守,是工程常识。兵马未动,粮草先行。这里的“粮草”,就是可用设备、模型下载、语言覆盖和失败兜底。
真门槛:设备、平台、下载和语言
Prompt API 最容易被低估的门槛,是设备条件。
文档列出的支持范围目前是桌面 Chrome:Windows 10/11、macOS 13+、Linux,或 Chromebook Plus 上的 ChromeOS。Android、iOS,以及非 Chromebook Plus 的 ChromeOS 暂不支持。
存储要求也不轻。Chrome profile 所在卷至少要有 22GB 可用空间。GPU 需要超过 4GB VRAM;如果走 CPU,则要求 16GB 以上内存和至少 4 个 CPU 核心。音频输入还要求 GPU。
模型首次下载还需要不限量或非计量网络。模型大小会随浏览器更新变化,这也会影响首次使用体验。
这些条件会直接改变产品设计。
如果一个功能只有少数桌面设备能跑,普通用户看到的就不是“浏览器 AI 到了”,而是“有些机器能用,有些机器不能用”。如果语言只列出 en、ja、es,面向中文用户的产品也不能把它当成默认能力。
对开发团队来说,接下来该看的不是演示视频能不能跑通,而是四个硬条件:
| 观察点 | 判断标准 | 影响 |
|---|---|---|
| Origin Trial 后 API 是否稳定 | 接口是否进入稳定版,是否频繁变化 | 决定能不能进入核心产品链路 |
| 语言是否扩展 | 是否覆盖更多目标市场语言 | 决定非英语市场能不能真正使用 |
| 模型下载是否顺滑 | 下载、权限、失败提示是否清楚 | 决定普通用户是否愿意等、是否会放弃 |
| 硬件门槛是否下降 | 存储、GPU、CPU/RAM 要求是否放宽 | 决定覆盖率,而不是开发者热情 |
Prompt API 的方向是清楚的:把一部分 AI 能力下沉到浏览器运行时。
但平台能力不是写进文档就算完成。它要跨过分发、兼容、语言、硬件和失败处理。现在的 Prompt API,已经值得开发者试;还不适合被包装成所有 Chrome 用户都能立刻享受的本地 AI。
