ServiceNow AI 在 Hugging Face 发布了一套代码切换 ASR 基准,专门测企业语音代理能不能听懂双语客户。

它测了 7 个语音识别系统,覆盖 Spanish-English、French-English、Canadian French-English、German-English 四组混合语音。场景也没有放在泛泛的闲聊里,而是集中在 HR 和 ITSM:薪资福利、密码重置、VPN 访问、设备故障。

这件事有意思的地方在于,它没有把 ASR 当“字幕准确率”来评估。企业语音代理里,ASR 是第一道关。第一道关错了,后面的意图识别、知识库问答、自动派单都会被带偏。

为什么双语客户要单独测

代码切换不是小语种边角料。

在企业支持里,一个员工可能用母语描述问题,用英语说系统名、工单类型、设备名或内部流程词。对人来说,这很自然。对 ASR 来说,这会突然变成难题。

因为模型不只要听清声音,还要判断每个片段属于哪种语言。更麻烦的是,它还不能擅自“翻译”。企业系统需要的是原样转写,保住实体、语言边界和请求意图。

这里的风险很具体。

如果 ASR 把 VPN 访问听成别的请求,ITSM 可能派错队列。把福利日期、账号、设备编号听错,HR 或 IT 自动化流程就会误判。用户听到的是“机器人没听懂”,企业看到的是处理成本上升。

所以这类基准最该影响的,是两类人:

  • 企业语音代理负责人.不要只拿单语 ASR 分数做上线依据,要把代码切换样本放进 PoC。
  • ASR/语音 AI 评估团队.不要只看 WER,要看转写错误会不会伤到下游任务。

一句话,双语不是“多支持一种语言”这么简单。它会改变风险位置。

这套基准怎么做,别把它当真实客服实测

这套数据不是来自真实呼叫中心录音。

ServiceNow AI 是从企业支持语料出发,筛选 12 到 40 个词的候选句,排除邮箱、电话、URL 等实体占比过高的内容。之后用 GPT-5 生成代码切换文本,再做口语化处理,用 ElevenLabs Multilingual V2 合成语音。

最后,数据由母语 AI/NLP 语言学家审核。

样本量不大,但边界清楚:

语言对样本量场景这组数据主要看什么
Spanish-English259HR、ITSM常见双语企业支持表达
French-English298HR、ITSM样本最多,可看稳定性
Canadian French-English188HR、ITSM区域语言差异带来的识别压力
German-English173HR、ITSM英语嵌入后的转写退化

评估指标也不是一个 WER 打到底。

指标看什么对企业语音代理的含义
WER字面转写错误率听写准不准
SWER语义错误意思有没有被改坏
AER下游问答理解失败率业务会不会办错

我更在意的是 AER。

WER 低,说明转写表面更准。但企业语音代理真正怕的,是一句话看起来差不多,意思却变了。比如请求类型、对象、时间、系统名一错,后面再强的 RAG 和工作流也只能沿着错误输入往下跑。

不过,也别把这套基准神化。

它依赖 GPT-5 生成文本,也依赖 ElevenLabs 合成语音。真实客服通话里的口音、噪声、打断、迟疑、情绪、麦克风质量,合成语音很难完全覆盖。

所以它更适合作为筛选门槛,不适合作为上线结论。

结果说明:头部模型强在不同地方

ServiceNow AI 测试的 7 个系统包括 AssemblyAI Universal 3-Pro、Deepgram Nova 3 Multilang、ElevenLabs Scribe V2、Google Gemini 3 Flash、Mistral Voxtral Small 24B-2507、Nvidia Parakeet TDT 0.6b V3 和 OpenAI Whisper Large V3 Turbo。

综合表现靠前的是 ElevenLabs Scribe V2、Gemini 3 Flash、AssemblyAI Universal 3-Pro。

Scribe V2 和 AssemblyAI 在 WER 上更强。Gemini 3 Flash 的看点不一样:它的字面转写排名未必总是第一,但在 SWER、AER 这类语义和下游指标上,超过 AssemblyAI 的情况更多。

这说明一件事:企业不能把 WER 排名直接等同于业务效果。

传统 ASR 模型可能更擅长逐字转写。大音频语言模型可能在“保住意思”上更稳。哪条路线更适合企业,要看后面的任务是什么。

Whisper Large V3 Turbo 排名靠后,也不能简单写成“模型不行”。原文指出,一个关键原因是:未显式指定语言时,它面对混合语音容易把内容翻译成英文,而不是按原语言转写。

对字幕用户来说,翻译成英文有时还能接受。对企业语音代理来说,这可能是事故源头。因为系统需要的是可追踪、可对齐、可进入流程的原始输入。

采购和评估时,动作可以更硬一点:

决策点不建议怎么做更稳的做法
选型只看 WER 榜单同时看 WER、SWER、AER
PoC只测标准单语句子加入本企业常见代码切换样本
上线默认模型会原样转写检查是否能显式控制“转写而非翻译”
评估用合成语音结论替代真实流量用真实噪声、多轮对话、业务流程再压测

如果企业正在做客服自动化或内部支持语音代理,我会把这套基准当成一个预警信号。

不是马上迁移模型,也不是立刻推翻已有方案。更合理的动作,是延后“只凭单语测试上线”的决策,把代码切换样本加入 PoC,并把 AER 设成上线前必须过的指标。

接下来最该看的,也不是榜单名次小幅变化。

真正要看三件事:真实通话噪声下 AER 是否还能稳住;多轮对话里语言切换会不会累积错误;模型能不能稳定做到原样转写,而不是替企业“好心翻译”。

目前这套基准只覆盖四组语言对和 HR/ITSM 场景。它不能证明某个模型在所有双语客服里最佳。

但它已经把问题摆清楚了:企业语音代理的难点,不是会不会说多种语言,而是客户半句一换时,系统还能不能把事办对。