OpenAI 语音 AI 的低延迟麻烦：WebRTC 快了，提示词可能碎了

核心摘要 Summary

OpenAI 强调用 WebRTC 交付低延迟语音 AI，但 Luke Curley 的批评把问题推到更底层：WebRTC 为了实时性，可能在差网络下主动丢弃音频包。
对视频会议来说，这是合理取舍；对 LLM 语音提示来说，丢掉的可能就是用户意图。
语音 AI 不能只卷“像真人一样快”，还得给高价值任务留出“慢一点但听准”的通道。

OpenAI 做语音 AI，最容易被用户感知的是一个字：快。

你说完，它马上接。停顿少一点，拟人感就多一点。OpenAI 此前谈过自己如何大规模交付低延迟语音 AI，核心路线里有 WebRTC。这个选择很自然：浏览器支持好，实时音视频成熟，延迟也低。

但 Simon Willison 5 月 9 日摘引的 Luke Curley 批评，把这事从“链路怎么更快”推到了更尖的位置：WebRTC 在差网络下会为了低延迟丢音频包。如果这段音频是会议里的闲聊，糊掉几个字还好；如果它是给大模型的提示词，丢掉的可能就是任务本身。

这不是 OpenAI 官方承认了缺陷，也不能推出“WebRTC 语音输入一定会毁掉提示词”。更准确地说，这是一次协议目标和产品目标的撞车。

争议点不在语音识别，而在传输取舍

Curley 的话很刺耳：WebRTC 会在网络差时“degrade and drop my prompt”。

他批评的重点不是模型笨，也不是语音识别不行，而是音频还没到模型那一步，传输层已经可能把内容切碎了。

WebRTC 原本服务的是实时音视频。它的默认信仰很清楚：别等。为了让会议继续，它宁愿丢一部分音频包，也不愿为了完整性把对话卡住。

这个逻辑在会议里成立。

人类听到一句破碎的话，可以凭上下文补。听不清，还能立刻问一句“你刚才说什么”。但 LLM 语音输入不是同一种场景。用户可能在说一段代码修改要求、一封客户邮件的语气、一份合同条款的边界，甚至是一段医疗或法律问题的背景。

提示词少一个否定词，回答就可能拐到另一条路上。

Curley 还提到，浏览器里的 WebRTC 音频包重传并不是你想做就能做。他说 Discord 曾尝试过相关方向，但浏览器实现本身就是围绕实时低延迟设计的。换句话说，产品团队以为自己选的是一条高速路，代价却是路政规则不归自己管。

WebRTC 适合会议，不一定适合提示词

这个争议真正有价值的地方，是把“快”拆开了。

同样是低延迟，不同场景的代价完全不同。

场景	最优先目标	丢包后的后果	更合理的取舍
视频会议	对话不断、等待少	声音破碎，但还能补问	宁可糊一点，也别卡住
LLM 语音提示	意图准确、内容完整	提示词失真，回答跑偏	宁可多等一点，也别乱听
浏览器语音 AI	易接入、跨平台	受浏览器 WebRTC 栈约束	需要确认、回放、纠错机制

OpenAI 重做语音链路，原本说的是低延迟系统工程：模型快了，网络绕远也会拖后腿。这个判断还成立。

但 Curley 补上的变量更麻烦：问题不只是网络路径远不远，而是协议本身把“实时”放在“完整”前面。

这就像铁路和电报刚兴起时，速度改变了一切，但也逼着制度重新定义“准点”和“准确”。速度不是免费午餐。它会改写组织、流程，也会藏起新的故障点。

放到语音 AI 上，最危险的故障不是用户听见断音，而是用户完全没意识到 AI 已经听错。模型还会很流畅地回答。流畅会掩盖前面的损坏。

这才是坏体验里最阴的一种。

受影响的不是所有用户，而是高成本语音任务

普通闲聊、陪伴、客服前置问答，低延迟仍然很重要。用户要的是自然接话，偶尔听糊了，可以再说一遍。

真正该紧张的是两类人。

一类是把浏览器语音入口当核心交互的产品团队。你不能只盯端到端延迟，还要问：

差网络下，音频有没有被丢弃？
用户能不能看到转写文本并确认？
关键任务有没有更可靠的上传链路？
企业场景能不能保留录音、转写和输入审计？
用户能不能选择“更快响应”或“更高准确性”？

另一类是用语音下达高价值任务的用户。比如让 AI 改代码、写合同邮件、总结客户需求、记录会议决议。

这些任务里，错一个词不是“小瑕疵”。它可能变成错误输出、错误执行、错误记录。用户最后只会觉得“AI 又胡说”，但故障点可能根本不在模型，而在音频进模型之前。

这对产品评测也有提醒。别只测安静 Wi-Fi 下的响应速度。地铁、移动网络、蓝牙耳机、嘈杂办公室，才更接近真实使用。

模型实验室喜欢展示干净样本，用户生活从来不干净。

我的判断：语音 AI 要有一条慢路

我不太买账的是，把语音 AI 的体验全压到“像真人一样快”。

真人对话当然需要快。但用户找 AI，不只是为了被陪聊。很多时候，用户是在委托任务。委托任务的第一要求不是热闹，是准确。

“差之毫厘，谬以千里。”这句话放在提示词上很合适。大模型不是只处理声音，它会把输入继续放大。前面听错一点，后面就可能写出一整段漂亮的错答案。

所以语音 AI 迟早要分层。

闲聊模式，可以快。陪伴、口语练习、低风险问答，可以优先实时感。

任务模式，应该允许慢。让用户看一眼转写，允许关键片段重传，必要时保留录音回放。尤其在企业、代码、法律、医疗、财务这些场景里，200 毫秒不是罪，错意图才是罪。

这也是我对 OpenAI 这类语音产品最现实的期待：别把低延迟当成唯一胜利条件。模型越强，输入越要可信。否则就是把一台很贵的发动机，接在一根会漏油的管子上。

速度能制造惊艳，准确才能留下信任。

OpenAI 选择 WebRTC 并不愚蠢。它解决了跨平台、低延迟、浏览器接入这些硬问题。问题在于，WebRTC 的成功经验来自会议，不来自提示词委托。把会议协议搬进 AI 入口，必须补上确认、纠错和可靠传输的产品层设计。

少了这层，语音 AI 会越来越像真人，也会越来越擅长自信地误解人。

OpenAI 语音 AI 的低延迟麻烦：WebRTC 快了，提示词可能碎了

语音低延迟

争议核心

传输取舍

提示词受损

场景错配

会议容错

任务低容错

受影响者

产品团队

任务用户

产品解法

快路

慢路

争议点不在语音识别，而在传输取舍

WebRTC 适合会议，不一定适合提示词

受影响的不是所有用户，而是高成本语音任务

我的判断：语音 AI 要有一条慢路