代码切换 ASR 基准发布：双语客户正在放大语音代理风险

核心摘要 Summary

ServiceNow AI 发布了一套面向企业语音代理的代码切换 ASR 基准，覆盖西英、法英、加拿大法英、德英四组混合语音，并开放数据集与 AU-Harness。
这套基准的价值，不是给所有企业选出一个“通吃模型”，而是把双语客户的真实表达方式拉进了 ASR 评估。
我更在意的是 AER：如果转写错误会让问答、派单、身份核验跟着错，语音代理就不能只看 WER 排名。

ServiceNow AI 在 Hugging Face 发布了一套代码切换 ASR 基准，专门测企业语音代理能不能听懂双语客户。

它测了 7 个语音识别系统，覆盖 Spanish-English、French-English、Canadian French-English、German-English 四组混合语音。场景也没有放在泛泛的闲聊里，而是集中在 HR 和 ITSM：薪资福利、密码重置、VPN 访问、设备故障。

这件事有意思的地方在于，它没有把 ASR 当“字幕准确率”来评估。企业语音代理里，ASR 是第一道关。第一道关错了，后面的意图识别、知识库问答、自动派单都会被带偏。

为什么双语客户要单独测

代码切换不是小语种边角料。

在企业支持里，一个员工可能用母语描述问题，用英语说系统名、工单类型、设备名或内部流程词。对人来说，这很自然。对 ASR 来说，这会突然变成难题。

因为模型不只要听清声音，还要判断每个片段属于哪种语言。更麻烦的是，它还不能擅自“翻译”。企业系统需要的是原样转写，保住实体、语言边界和请求意图。

这里的风险很具体。

如果 ASR 把 VPN 访问听成别的请求，ITSM 可能派错队列。把福利日期、账号、设备编号听错，HR 或 IT 自动化流程就会误判。用户听到的是“机器人没听懂”，企业看到的是处理成本上升。

所以这类基准最该影响的，是两类人：

企业语音代理负责人.不要只拿单语 ASR 分数做上线依据，要把代码切换样本放进 PoC。
ASR/语音 AI 评估团队.不要只看 WER，要看转写错误会不会伤到下游任务。

一句话，双语不是“多支持一种语言”这么简单。它会改变风险位置。

这套基准怎么做，别把它当真实客服实测

这套数据不是来自真实呼叫中心录音。

ServiceNow AI 是从企业支持语料出发，筛选 12 到 40 个词的候选句，排除邮箱、电话、URL 等实体占比过高的内容。之后用 GPT-5 生成代码切换文本，再做口语化处理，用 ElevenLabs Multilingual V2 合成语音。

最后，数据由母语 AI/NLP 语言学家审核。

样本量不大，但边界清楚：

语言对	样本量	场景	这组数据主要看什么
Spanish-English	259	HR、ITSM	常见双语企业支持表达
French-English	298	HR、ITSM	样本最多，可看稳定性
Canadian French-English	188	HR、ITSM	区域语言差异带来的识别压力
German-English	173	HR、ITSM	英语嵌入后的转写退化

评估指标也不是一个 WER 打到底。

指标	看什么	对企业语音代理的含义
WER	字面转写错误率	听写准不准
SWER	语义错误	意思有没有被改坏
AER	下游问答理解失败率	业务会不会办错

我更在意的是 AER。

WER 低，说明转写表面更准。但企业语音代理真正怕的，是一句话看起来差不多，意思却变了。比如请求类型、对象、时间、系统名一错，后面再强的 RAG 和工作流也只能沿着错误输入往下跑。

不过，也别把这套基准神化。

它依赖 GPT-5 生成文本，也依赖 ElevenLabs 合成语音。真实客服通话里的口音、噪声、打断、迟疑、情绪、麦克风质量，合成语音很难完全覆盖。

所以它更适合作为筛选门槛，不适合作为上线结论。

结果说明：头部模型强在不同地方

ServiceNow AI 测试的 7 个系统包括 AssemblyAI Universal 3-Pro、Deepgram Nova 3 Multilang、ElevenLabs Scribe V2、Google Gemini 3 Flash、Mistral Voxtral Small 24B-2507、Nvidia Parakeet TDT 0.6b V3 和 OpenAI Whisper Large V3 Turbo。

综合表现靠前的是 ElevenLabs Scribe V2、Gemini 3 Flash、AssemblyAI Universal 3-Pro。

Scribe V2 和 AssemblyAI 在 WER 上更强。Gemini 3 Flash 的看点不一样：它的字面转写排名未必总是第一，但在 SWER、AER 这类语义和下游指标上，超过 AssemblyAI 的情况更多。

这说明一件事：企业不能把 WER 排名直接等同于业务效果。

传统 ASR 模型可能更擅长逐字转写。大音频语言模型可能在“保住意思”上更稳。哪条路线更适合企业，要看后面的任务是什么。

Whisper Large V3 Turbo 排名靠后，也不能简单写成“模型不行”。原文指出，一个关键原因是：未显式指定语言时，它面对混合语音容易把内容翻译成英文，而不是按原语言转写。

对字幕用户来说，翻译成英文有时还能接受。对企业语音代理来说，这可能是事故源头。因为系统需要的是可追踪、可对齐、可进入流程的原始输入。

采购和评估时，动作可以更硬一点：

决策点	不建议怎么做	更稳的做法
选型	只看 WER 榜单	同时看 WER、SWER、AER
PoC	只测标准单语句子	加入本企业常见代码切换样本
上线	默认模型会原样转写	检查是否能显式控制“转写而非翻译”
评估	用合成语音结论替代真实流量	用真实噪声、多轮对话、业务流程再压测

如果企业正在做客服自动化或内部支持语音代理，我会把这套基准当成一个预警信号。

不是马上迁移模型，也不是立刻推翻已有方案。更合理的动作，是延后“只凭单语测试上线”的决策，把代码切换样本加入 PoC，并把 AER 设成上线前必须过的指标。

接下来最该看的，也不是榜单名次小幅变化。

真正要看三件事：真实通话噪声下 AER 是否还能稳住；多轮对话里语言切换会不会累积错误；模型能不能稳定做到原样转写，而不是替企业“好心翻译”。

目前这套基准只覆盖四组语言对和 HR/ITSM 场景。它不能证明某个模型在所有双语客服里最佳。

但它已经把问题摆清楚了：企业语音代理的难点，不是会不会说多种语言，而是客户半句一换时，系统还能不能把事办对。

代码切换 ASR 基准发布：双语客户正在放大语音代理风险

代码切换ASR

基准发布

企业场景

开放工具

风险核心

实体易错

流程带偏

评估转向

AER关键

原样转写

数据边界

合成语音

范围有限

选型信号

语义稳定

上线门槛

为什么双语客户要单独测

这套基准怎么做，别把它当真实客服实测

结果说明：头部模型强在不同地方