人工智能资讯第51页

人工智能 2026/4/27

Google DeepMind与韩国政府合作：科学AI进国家体系，边界比口号更重要

Google DeepMind于2026年4月27日宣布与韩国政府合作，目标是用前沿AI模型加速科学发现和科研应用。这不是单一产品发布，也不是已有科研成果落地，目前更像一项国家级AI科研能力合作框架。韩国可能获得更快的模型和方法入口，Google DeepMind也在扩大自己在科学AI和公共政策中的位置。

Google DeepMind韩国政府前沿AI模型

人工智能 2026/4/27

Chrome Prompt API 更新：Gemini Nano 进了浏览器，但还不是 Web AI 标配

Chrome 文档更新了 Prompt API：从 Chrome 138 起，开发者可在 Origin Trial 中调用浏览器内的 Gemini Nano，处理文本、图像和音频输入。它更像给 Web 和 Chrome 扩展开发者的本地 AI 试验场，不是所有 Chrome 用户马上可用的功能。真正的门槛不在几行 API，而在版本、硬件、模型下载、语言和平台支持。

Gemini NanoChromePrompt API

人工智能 2026/4/27

TurboQuant 想省掉的，不是 1 bit，而是低比特量化的 metadata 暗税

TurboQuant 面向 KV cache、embedding、attention key 等高维向量，试图用随机正交旋转抹平 outlier channel，再用 2–4 bit 固定码本量化。它最有价值的点不是纸面 bit 数更低，而是不依赖训练、校准和 per-block scale/zero-point，直接挑战低比特量化里常被忽略的 metadata 成本。真正要看的，是它在具体模型、任务和硬件路径下，能否把旋转与解码成本也算进账本。

TurboQuant低比特量化AI向量压缩

人工智能 2026/5/19

Altman庭上占了上风，但OpenAI的AGI刹车还没装牢

马斯克诉OpenAI案进入Altman作证阶段，庭审把争议从“慈善机构被偷走”推向更硬的控制权问题：谁有资格掌握通往AGI的公司。Altman有同期邮件支撑自己的说法，但OpenAI真正的麻烦不是赢不赢官司，而是它能不能让客户、监管者和公众相信：这家公司不是靠某个人的信用在踩刹车。

OpenAIAGISam Altman

人工智能 2026/4/27

YourMemory 让 AI 记忆学会遗忘，但那 16pp 还不能当结论

YourMemory 在 GitHub 发布了一个带艾宾浩斯遗忘曲线衰减机制的 Agentic AI memory，并声称 LoCoMo 召回率比 Mem0 高 16 个百分点。真正值得看的是遗忘机制：AI 长期记忆不能只比谁存得多，还要比谁会降权、会隔离、会删除。开发者可以研究它的方向，但不宜直接迁移；企业接入更该盯住复现、权限、telemetry 和数据治理。

AI记忆YourMemory艾宾浩斯遗忘曲线

人工智能 2026/4/26

SpeakOn把AI听写做成iPhone背夹：129美元买到入口，也买到iOS限制

SpeakOn推出一款129美元的独立听写设备，25克，通过MagSafe吸在iPhone背面，按住按钮说话、松开结束，再通过iOS键盘把文字输入到不同应用。它验证了重度语音输入用户确实需要更顺手的入口，但现在的短板也很清楚：单麦克风收音有限，第三方键盘绕不开iOS限制，AI改写有时会改坏语气。对经常在手机上处理邮件、消息和多语言沟通的人来说，这更像一个可以观望的早期方案，还不是能放心替代系统听写或成熟App的工具。

SpeakOnAI听写iPhone背夹

人工智能 2026/4/26

OpenAI 停报 SWE-bench Verified：AI 编程分数越来越不像能力本身

OpenAI 宣布不再报告 SWE-bench Verified 分数，理由是测试缺陷和公开数据污染已削弱它对前沿模型编码能力的区分力。问题不在于模型没有进步，而在于公开基准的红利正在耗尽：分数越来越容易混入题目暴露、隐藏测试和训练记忆。对研发团队和模型采购方来说，公开榜单只能当路标，不能当验收单。

OpenAISWE-bench VerifiedAI 编程

人工智能 2026/4/26

EPFL的Kinematic Intelligence：机器人换了硬件，为什么技能不能直接复制

EPFL团队在Science Robotics发表Kinematic Intelligence框架，目标是让不同机械臂在一次人工示教后复用技能。它的价值不在“更像AI”，而在把关节极限和奇异点提前写进控制策略，降低跨硬件迁移时卡死、失控和撞上奇异点的风险。对自动化团队来说，这更像一套可验证的迁移底座，还不是可直接上产线的通用机器人系统。

Kinematic Intelligence机器人控制技能迁移

人工智能 2026/4/26

Eden AI 不是简单的欧洲版 OpenRouter，关键在生产路由

Eden AI 官网称可用统一 API 接入 500+ AI 模型，覆盖 LLM、OCR、语音、视觉和翻译，并支持智能路由、失败 fallback、价格、延迟和执行地区控制。它和 OpenRouter 都在降低多模型接入成本，但 Eden AI 更像多模态能力聚合与生产环境路由工具。真正该验证的不是模型数量，而是质量、价格、延迟、SLA 和故障切换能否经得住真实业务。

Eden AIAI模型路由平台统一API

人工智能 2026/4/28

AI 省掉初级工程师？省人可以，断流不行

AI 正在吃掉一部分低阶编码任务，但真正危险的不是初级工程师少写几行样板代码，而是公司把人才梯队一起省掉。EvalCode 的新评论把问题从“新人还值不值钱”推进到“停招新人后，资深工程师会不会反过来掌握组织命门”。

AI 编程初级工程师人才梯队

人工智能 2026/4/26

DeepSeek V4 开源权重发布：1M 上下文更实用，但还没掀翻闭源前沿

DeepSeek V4 Pro 和 V4 Flash 发布开源权重，主打 1M token 上下文、Base/Instruct 双版本、MIT 许可，并支持华为 Ascend/CANN 生态运行。它真正推进的是长上下文推理成本和部署自由度，不是综合能力全面反超闭源模型。对研发和基础设施团队来说，现在更适合进入评测、迁移测算和算力路线对比，而不是立刻押注全量替换。

DeepSeek V4开源权重模型长上下文

人工智能 2026/4/26

23岁业余爱好者用 GPT-5.4 Pro 撬开 Erdős 老题：别急着说 AI 取代数学家

23岁的 Liam Price 没有高等数学训练，却用 ChatGPT Pro 中的 GPT-5.4 Pro 得到一个 Erdős 原始集合问题的解法草稿，并发布到 erdosproblems.com。关键不在于 AI 独立完成严格证明，而在于模型给出了一条此前专家没有用于这类问题的连接。Terence Tao 和 Jared Lichtman 的态度也很克制：原始输出粗糙，人类专家仍要理解、验证、压缩和重写。

GPT-5.4 ProChatGPT ProAI数学

人工智能 2026/4/26

别把 AI Agent 当同事，它更该被塞进软件系统

Feldera 联合创始人 Gerd Zellweger 发文反对把 AI Agent 设计成“聊天同事”，主张把它们嵌进软件，用 CLI、声明式规格、调和循环和 CDC 数据流工作。关键判断是：Agent 落地的分水岭不在更像人，而在软件是否愿意为机器协作重做接口、状态和数据流。对企业软件、数据平台和 Agent 工具链团队来说，这会直接影响产品架构、采购判断和开发优先级。

AI Agent企业软件Feldera

人工智能 2026/4/26

Anthropic 的 AI 代理交易实验：真正的问题是用户看不出代理差距

Anthropic 做了一个名为 Project Deal 的小型试点市场，让 AI 代理代表买家和卖家，用真实商品和真实钱完成交易。实验规模不大：69 名自选员工、每人 100 美元礼品卡预算、186 笔交易、总额超过 4000 美元。更值得盯的是：更先进模型代表用户时，客观结果更好，但用户未明显感知差距。代理商业的风险不在会不会砍价，而在议价能力开始被模型等级重新分配。

AnthropicProject DealAI代理

人工智能 2026/5/11

AI 没有击穿写作和编程，它击穿了知识工作的验货方式

AI 正在把软件工程里的分水岭暴露出来：会不会生成代码已经不稀缺，能不能解释、校验和负责才值钱。新线索把“知识工作仿真化”这个判断落到了工程现场：输出越来越像真的，组织却更难判断一个人到底懂不懂。

AI知识工作软件工程

人工智能 2026/5/25

Claude Code 救活个人项目，也把开发者的刹车问题推到台前

Claude Code 让一些开发者把搁置多年的个人项目重新跑起来，甚至开始重写自己的桌面环境；新线索补上的关键一面是：AI 编程不只在提效，也在改变人的启动、反馈和付费行为。真正受影响的不是所有普通用户，而是独立开发者、知识工作者和正在给 AI 编程工具定预算的团队。

Claude CodeAI 编程工具独立开发者

人工智能 2026/4/30

OpenAI 的地精口癖：Codex 被迫禁聊 goblin，问题出在奖励函数

OpenAI 承认，GPT-5.1 的 Nerdy 人格训练让模型学会了频繁使用 goblin、gremlin 等怪物隐喻，这种风格还外溢到后续模型和 Codex。真正值得警惕的不是“地精”这个词，而是人格化训练、偏好数据复用和奖励边界没关严，最后把一个小口癖养成了产品习气。

OpenAICodexGPT-5.1

人工智能 2026/5/1

Codex 加了 /goal：OpenAI 的 Agent 生意，开始向“自动跑账单”靠拢

Codex CLI 0.128.0 新增 /goal，用户设定目标后，编码代理会持续循环执行，直到自评完成或耗尽 token 预算。这个细节补强了一个更大的判断：OpenAI 不再只是卖更强模型，而是在把 Codex、Azure 松绑和 Agent 工作流一起推向可计费、可控制、可规模化的执行层。

OpenAICodex CLI/goal

人工智能 2026/4/26

东京这场科技会，别只看AI，要看谁真的买单

SusHi Tech Tokyo 2026 将于 4 月 27-29 日在 Tokyo Big Sight 举办，主题压在 AI、机器人、韧性城市和娱乐四条线。TechCrunch 是官方媒体合作方，所谓“2026 最重要科技目的地”要打折看。更有价值的判断是：东京正在把城市治理、制造业和文化 IP 变成技术落地的展台。

SusHi Tech Tokyo 2026AIRobotics

人工智能 2026/4/26

AI Agent 缺的不是更聪明，而是公共约束

Mark Nottingham 质疑 AI Agent 热潮：真正缺口不在模型能力，而在它是否像浏览器 User Agent 那样有公开规则、可审计边界和利益制衡。若 Agent 只是平台塞进来的黑箱助手，它就更像新的权力中介。企业采购和产品团队现在该看的不是演示多顺，而是权限、日志、退出机制和责任边界。

AI Agent信任边界用户代理

人工智能 2026/4/25

LamBench 榜单：gpt-5.4 领跑，但真正该看的不是名次

Victor Taelin 发布 LamBench，用 120 道 Lambda Calculus 题测试大模型的形式推理和代码相关能力。gpt-5.4 以 110/120 排第一，opus-4.6、gpt-5.3-codex 紧随其后；但 120 题的小榜单不能当通用智能排名。更重要的问题是：模型会写代码，不等于能在形式系统里稳定计算。

LamBench大模型评测Lambda Calculus

人工智能资讯 第51页

Google DeepMind与韩国政府合作：科学AI进国家体系，边界比口号更重要

Chrome Prompt API 更新：Gemini Nano 进了浏览器，但还不是 Web AI 标配

TurboQuant 想省掉的，不是 1 bit，而是低比特量化的 metadata 暗税

Altman庭上占了上风，但OpenAI的AGI刹车还没装牢

YourMemory 让 AI 记忆学会遗忘，但那 16pp 还不能当结论

SpeakOn把AI听写做成iPhone背夹：129美元买到入口，也买到iOS限制

OpenAI 停报 SWE-bench Verified：AI 编程分数越来越不像能力本身

EPFL的Kinematic Intelligence：机器人换了硬件，为什么技能不能直接复制

Eden AI 不是简单的欧洲版 OpenRouter，关键在生产路由

AI 省掉初级工程师？省人可以，断流不行

DeepSeek V4 开源权重发布：1M 上下文更实用，但还没掀翻闭源前沿

23岁业余爱好者用 GPT-5.4 Pro 撬开 Erdős 老题：别急着说 AI 取代数学家

别把 AI Agent 当同事，它更该被塞进软件系统

Anthropic 的 AI 代理交易实验：真正的问题是用户看不出代理差距

AI 没有击穿写作和编程，它击穿了知识工作的验货方式

Claude Code 救活个人项目，也把开发者的刹车问题推到台前

OpenAI 的地精口癖：Codex 被迫禁聊 goblin，问题出在奖励函数

Codex 加了 /goal：OpenAI 的 Agent 生意，开始向“自动跑账单”靠拢

东京这场科技会，别只看AI，要看谁真的买单

AI Agent 缺的不是更聪明，而是公共约束

LamBench 榜单：gpt-5.4 领跑，但真正该看的不是名次

人工智能资讯第51页