Simon Willison 的命令行 LLM 工具 llm 发布 0.31。最显眼的是支持 llm -m gpt-5.5,但这不等于 OpenAI 正式发布 GPT-5.5,也不能据此推断性能、价格、上下文长度。

真正有用的变化更朴素:开发者多了几个控制旋钮。文本输出可以设 verbosity,图像附件可以设 image_detail,额外配置文件里的 OpenAI 模型也补上了异步注册。

和此前 llm-openrouter 0.6 增加模型列表手动刷新放在一起看,这条线变得更完整:前者解决“新模型来了,工具能不能快点接上”;后者补上“接上之后,调用能不能更可控”。这不是热闹的模型发布新闻,是工具层的工程新闻。

发生了什么:llm 0.31 把控制权往命令行前移

这次更新可以压成五条:

  • 新增 OpenAI 模型名调用.llm -m gpt-5.5
  • GPT-5+ OpenAI 模型支持文本详细度:-o verbosity low,可选 lowmediumhigh
  • OpenAI 图像附件支持细节级别.-o image_detail low,可选 lowhighauto
  • GPT-5.4 和 GPT-5.5 的图像细节还接受 original
  • extra-openai-models.yaml 里列出的模型,现在也会注册为 asynchronous,方便异步调用。

普通用户大概率无感。你不会因为多了一个 verbosity=high 就换聊天机器人。

受影响的是把 LLM 塞进脚本、CI、数据清洗、批量摘要、日志分析、研究流水线的人。他们要的不是聊天窗口更会说话,而是一次模型调用能被重复、限制、审计、并发。

为什么重要:刷新按钮解决接入,参数解决驯服

此前 llm-openrouter 0.6 的手动刷新模型列表,看似只是一个刷新按钮。它暴露的是大模型时代很现实的一层竞争:模型上新太快,工具如果不能及时同步列表,用户就得等版本、改配置、绕接口。

llm 0.31 把问题推进了一步。接入只是半场。模型进了工具,开发者还要管输出长度、视觉输入细节、异步任务、批处理稳定性。

这几个参数不性感,但很要命。

verbosity 管的是输出倾向。太长,账单涨,审阅慢;太短,信息不够,任务失败。它不能保证质量,只是让脚本少一点随机脾气。

image_detail 管的是图像传入模型的细节级别。高细节可能带来更多信息,也可能带来更高延迟和消耗;低细节更省,但可能漏掉关键内容。它不是视觉能力升级,只是把油门和刹车露出来。

异步注册更偏工程侧。对一两个请求没什么感觉;对批量任务、自动化流水线、后台处理,它就是从“能用”走向“能跑”的那截路。

谁最受影响:开发者,不是围观模型名的人

AI 行业太爱追模型名。GPT、Claude、Gemini、DeepSeek,版本号一跳,叙事马上加速。可真把模型放进生产流程的人,最怕的往往不是模型不够强,而是不可控。

同一批输入,今天输出三百字,明天输出三千字;图片细节开高后延迟暴涨;模型名已经存在,工具列表却还没同步;并发任务能不能跑,报错能不能定位。这些东西没有发布会,但会直接砸到工程成本上。

llm 这类工具的价值就在这里。它不像消费级聊天产品那样争夺界面、人格和记忆。它更接近 Unix 小工具:输入、输出、参数、管道。

窄,但硬。

开发者要的是:

  • 新模型出现后,能不能尽快调用;
  • 调用时,能不能显式控制输出和输入细节;
  • 批量任务里,能不能异步、稳定、可排错;
  • API 变化后,能不能少写一层又一层胶水代码。

这也是模型工具链的分水岭。玩具工具追热点,生产工具管变量。

我的判断:大模型越强,工具层越不能偷懒

我不买“模型越强,工具越不重要”的说法。刚好相反。模型越强,接口越复杂,工具越像仪表盘。

没有仪表盘,强模型就是一台贵发动机。能轰鸣,也能烧钱。开发者不怕发动机大,怕的是没有转速表、油表、刹车和保险丝。

这事有点像电力早期。发电机当然重要,但工厂真正离不开的是开关、仪表、保险丝和配电规范。没有这些,电不是生产力,是事故源。古人说“工欲善其事,必先利其器”。今天这个“器”,不只是模型本体,也包括模型外面的参数、路由、刷新、异步和成本边界。

OpenRouter 插件里的手动刷新,解决的是模型市场变化太快的问题。llm 0.31 的 verbosity、image_detail 和异步注册,解决的是接入之后怎么管的问题。前者让工具别掉队,后者让模型别乱跑。

这两个变化都不宏大,却很诚实。它们承认了一个被宣传话术遮住的事实:大模型落地不是把最强模型接进来就完事,而是把不稳定、不透明、不断变化的接口压成能被人类和脚本驾驭的动作。

行业最容易偷懒的地方,也正在这里。厂商喜欢讲能力,工具要处理边界;厂商喜欢推新名字,开发者要承担新名字背后的迁移、成本和失败。天下熙熙,皆为利来。模型供应商卖马力,工具作者卖秩序。

接下来要看的不是 gpt-5.5 这个名字多响。现在没有足够信息判断它的性能和价格。真正该看两件事:

  • 各家模型供应商会不会把输出详细度、图像细节、异步能力这类控制项做得更统一;
  • llm 这类工具能不能继续把快速变化的 API 压成稳定命令,而不是让开发者每次都重写胶水代码。

如果做不到,所谓模型生态就会变成接口沼泽。每家都有新能力,每家都有新参数,每家都有新坑。工具层如果扛不住,开发者最后不是被模型能力解放,而是被模型接口拖住。

大模型竞争看起来在天上,实际落点在地面。刷新列表,是接上新世界;拧好参数,才是不被新世界反噬。