Hugging Face 这次没发新模型,也没说自己推理能力大升级。

它只是把 DeepInfra 接进了 Inference Providers。

但这个动作对开发者很实际:以后在 Hugging Face 的模型页、Python/JS SDK,或者 OpenAI 兼容接口里,可以直接调用 DeepInfra 托管的部分开源大模型推理服务。

更关键的是,Hugging Face 又往“默认入口”上钉了一颗钉子。模型在它这里被发现,请求从它这里被路由,账单也可以从它这里结。

接入了什么,哪些还没接入

DeepInfra 是一个 serverless AI inference 平台,主打较低 token 成本,模型目录超过 100 个。它本身覆盖 LLM、文生图、文生视频、embedding 等任务。

但放到 Hugging Face 这次接入里,范围要收窄看。

问题当前信息需要注意的限制
接入对象DeepInfra 成为 Hugging Face Inference Provider不是 Hugging Face 自研推理升级
调用入口Hub 模型页、Python/JS SDK、OpenAI 兼容接口需要具体模型支持 DeepInfra
首批任务conversational、text-generation图像、视频、embedding 等是后续计划
模型例子DeepSeek V4、Kimi-K2.6、GLM-5.1 等开放权重大模型不等于 DeepInfra 全部模型都能在 HF 直接用
付费方式DeepInfra API key 直连;或 HF token 经 Hugging Face 路由routed requests 目前不加价,未来可能有 revenue-sharing

用法也简单。

你可以用 DeepInfra 自己的 API key,费用走 DeepInfra 账户。也可以用 Hugging Face token,请求经 https://router.huggingface.co/v1 转到 DeepInfra,费用走 Hugging Face 账户。

Hugging Face 的说法是,routed requests 不额外加价,只透传 provider API rates。

这句话要按字面读:现在不加价,不代表永远不抽成。原文也留了口子,未来可能和供应商做收入分成。

还有一个小但有用的点:Hugging Face PRO 用户每月有 2 美元 Inference credits,免费登录用户也有小额度免费推理。

对个人开发者、早期项目和做 demo 的团队,这会降低试模型的摩擦。不是省下大钱,而是少注册一个账户、少改一套鉴权、少踩一次接入坑。

Hugging Face 没吃掉推理,它在拿住路由

我更在意的不是 DeepInfra 多了一个入口。

我更在意 Hugging Face 的选择:它没有把所有推理都揽到自己机器上跑,而是把供应商接进来,把开发者留在自己的界面、SDK、token 和账单体系里。

这条路更轻,也更像平台生意。

自己做重推理,要面对 GPU 成本、调度效率、价格战、SLA 和峰值容量。接 provider,则是另一套打法:我不一定拥有飞机,但我控制登机口。

这个比喻不复杂。航空公司可以很多,航线可以很多,机场入口就那么几个。开发者流量在哪里,供应商就愿意靠近哪里。

“天下熙熙,皆为利来。”放到这里很直白:开发者为低摩擦而来,DeepInfra 为分发而来,Hugging Face 为默认路径而来。

这件事对两类人最直接。

对象眼前怎么做真正要盯什么
个人开发者 / 小团队先用 HF token 和 OpenAI 兼容接口试模型,减少切换成本模型覆盖、账单口径、是否仍按 provider API rates 透传
有稳定流量的团队可以继续评估 DeepInfra API key 直连,保留计费和供应商关系的控制延迟、稳定性、SLA、成本核算,不要只看入口方便

这就是现实约束。

如果你只是试 DeepSeek V4、Kimi-K2.6、GLM-5.1 这类开放权重大模型,Hugging Face 路由很顺手。尤其是已有 HF 工作流的团队,迁移成本会低很多。

如果你已经有生产流量,别急着把所有请求都塞进统一入口。路由层多一层,便利是真的,依赖也是真的。账单、排障、速率限制、供应商支持,最后都要算进系统成本。

平台最厉害的地方,从来不是一开始收费。

它先帮你省麻烦。等你习惯了默认路径,谈判位置就变了。

开源模型的分水岭,正在从权重移到使用路径

过去谈开源大模型,大家最爱问:权重开不开?参数多不多?榜单高不高?

这些问题还重要,但不够用了。

模型越来越多,开放权重大模型也越来越多。开发者真正卡住的地方,常常不是模型名字,而是四件事:部署麻不麻烦,token 成本压不压得住,调用稳不稳定,出了账单和故障找谁。

DeepInfra 接入 Hugging Face,说明这条线在变粗。

对 DeepInfra,它拿到的是 Hugging Face 的分发场。对 Hugging Face,它拿到的是开发者路径。对开发者,它拿到的是更低接入摩擦,但也多了一个路由层选择题。

这和过去的平台战争有一点像,但不完全一样。

PC 时代争操作系统,移动互联网争应用商店,云时代争控制台和 API。AI 时代看起来更开放,因为权重能下载、模型能替换、接口也更兼容。

可一旦进入真实使用,入口仍会集中。

谁出现在模型页,谁被默认推荐,谁能接入统一 SDK,谁能进入账单体系,都会变成商业变量。技术强弱还在,但“离用户近”会越来越值钱。

我不太买账的是把这类动作只说成“生态更丰富”。生态当然更丰富,但平台不是慈善厨房。

菜单越完整,用户越不愿意出门。默认路径越顺,供应商越要接受平台规则。

接下来最该观察的不是口号,而是几个硬变量:DeepInfra 在 Hugging Face 上的模型覆盖会不会扩大;图像、视频、embedding 等任务何时接入;routed requests 的“不加价”会维持多久;收入分成落地后,provider 价格和排序会不会变化。

这些变量,比“又多一家 provider”重要。

开源 AI 的下一段竞争,会更多发生在模型页按钮、API base_url、账单归属和 token 单价里。

权重决定你能不能上桌。入口决定你离饭碗有多近。