人工智能资讯第14页

人工智能 2026/4/26

DeepSeek V4 开源权重发布：1M 上下文更实用，但还没掀翻闭源前沿

DeepSeek V4 Pro 和 V4 Flash 发布开源权重，主打 1M token 上下文、Base/Instruct 双版本、MIT 许可，并支持华为 Ascend/CANN 生态运行。它真正推进的是长上下文推理成本和部署自由度，不是综合能力全面反超闭源模型。对研发和基础设施团队来说，现在更适合进入评测、迁移测算和算力路线对比，而不是立刻押注全量替换。

DeepSeek V4开源权重模型长上下文

人工智能 2026/4/26

23岁业余爱好者用 GPT-5.4 Pro 撬开 Erdős 老题：别急着说 AI 取代数学家

23岁的 Liam Price 没有高等数学训练，却用 ChatGPT Pro 中的 GPT-5.4 Pro 得到一个 Erdős 原始集合问题的解法草稿，并发布到 erdosproblems.com。关键不在于 AI 独立完成严格证明，而在于模型给出了一条此前专家没有用于这类问题的连接。Terence Tao 和 Jared Lichtman 的态度也很克制：原始输出粗糙，人类专家仍要理解、验证、压缩和重写。

GPT-5.4 ProChatGPT ProAI数学

人工智能 2026/4/26

别把 AI Agent 当同事，它更该被塞进软件系统

Feldera 联合创始人 Gerd Zellweger 发文反对把 AI Agent 设计成“聊天同事”，主张把它们嵌进软件，用 CLI、声明式规格、调和循环和 CDC 数据流工作。关键判断是：Agent 落地的分水岭不在更像人，而在软件是否愿意为机器协作重做接口、状态和数据流。对企业软件、数据平台和 Agent 工具链团队来说，这会直接影响产品架构、采购判断和开发优先级。

AI Agent企业软件Feldera

人工智能 2026/4/26

Anthropic 的 AI 代理交易实验：真正的问题是用户看不出代理差距

Anthropic 做了一个名为 Project Deal 的小型试点市场，让 AI 代理代表买家和卖家，用真实商品和真实钱完成交易。实验规模不大：69 名自选员工、每人 100 美元礼品卡预算、186 笔交易、总额超过 4000 美元。更值得盯的是：更先进模型代表用户时，客观结果更好，但用户未明显感知差距。代理商业的风险不在会不会砍价，而在议价能力开始被模型等级重新分配。

AnthropicProject DealAI代理

人工智能 2026/5/11

AI 没有击穿写作和编程，它击穿了知识工作的验货方式

AI 正在把软件工程里的分水岭暴露出来：会不会生成代码已经不稀缺，能不能解释、校验和负责才值钱。新线索把“知识工作仿真化”这个判断落到了工程现场：输出越来越像真的，组织却更难判断一个人到底懂不懂。

AI知识工作软件工程

人工智能 2026/5/10

Claude Code 救活个人项目，也把开发者的刹车问题推到台前

Claude Code 让一些开发者把搁置多年的个人项目重新跑起来，甚至开始重写自己的桌面环境；新线索补上的关键一面是：AI 编程不只在提效，也在改变人的启动、反馈和付费行为。真正受影响的不是所有普通用户，而是独立开发者、知识工作者和正在给 AI 编程工具定预算的团队。

Claude CodeAI 编程工具独立开发者

人工智能 2026/4/30

OpenAI 的地精口癖：Codex 被迫禁聊 goblin，问题出在奖励函数

OpenAI 承认，GPT-5.1 的 Nerdy 人格训练让模型学会了频繁使用 goblin、gremlin 等怪物隐喻，这种风格还外溢到后续模型和 Codex。真正值得警惕的不是“地精”这个词，而是人格化训练、偏好数据复用和奖励边界没关严，最后把一个小口癖养成了产品习气。

OpenAICodexGPT-5.1

人工智能 2026/5/1

Codex 加了 /goal：OpenAI 的 Agent 生意，开始向“自动跑账单”靠拢

Codex CLI 0.128.0 新增 /goal，用户设定目标后，编码代理会持续循环执行，直到自评完成或耗尽 token 预算。这个细节补强了一个更大的判断：OpenAI 不再只是卖更强模型，而是在把 Codex、Azure 松绑和 Agent 工作流一起推向可计费、可控制、可规模化的执行层。

OpenAICodex CLI/goal

人工智能 2026/4/26

东京这场科技会，别只看AI，要看谁真的买单

SusHi Tech Tokyo 2026 将于 4 月 27-29 日在 Tokyo Big Sight 举办，主题压在 AI、机器人、韧性城市和娱乐四条线。TechCrunch 是官方媒体合作方，所谓“2026 最重要科技目的地”要打折看。更有价值的判断是：东京正在把城市治理、制造业和文化 IP 变成技术落地的展台。

SusHi Tech Tokyo 2026AIRobotics

人工智能 2026/4/29

OpenAI 被枪击案家属起诉后，AI 平台不能再拿“封号”当安全答案

加拿大 Tumbler Ridge 校园枪击案家属在加州起诉 OpenAI，称公司早在案发八个多月前就把涉案 ChatGPT 账号标记为“可信的现实枪支暴力威胁”，却没有报警，只做了封号处理。和此前 OpenAI 道歉相比，诉讼把争议从公关层面推到了法律层面：AI 平台知道具体危险后，到底有没有预警义务。

OpenAIChatGPTAI平台安全

人工智能 2026/4/26

AI Agent 缺的不是更聪明，而是公共约束

Mark Nottingham 质疑 AI Agent 热潮：真正缺口不在模型能力，而在它是否像浏览器 User Agent 那样有公开规则、可审计边界和利益制衡。若 Agent 只是平台塞进来的黑箱助手，它就更像新的权力中介。企业采购和产品团队现在该看的不是演示多顺，而是权限、日志、退出机制和责任边界。

AI Agent信任边界用户代理

人工智能 2026/4/25

LamBench 榜单：gpt-5.4 领跑，但真正该看的不是名次

Victor Taelin 发布 LamBench，用 120 道 Lambda Calculus 题测试大模型的形式推理和代码相关能力。gpt-5.4 以 110/120 排第一，opus-4.6、gpt-5.3-codex 紧随其后；但 120 题的小榜单不能当通用智能排名。更重要的问题是：模型会写代码，不等于能在形式系统里稳定计算。

LamBench大模型评测Lambda Calculus

人工智能 2026/4/25

wuphf 给 AI 代理建共享 wiki：比“AI 员工 Slack”更重要的是 Git 账簿

wuphf 是一个公开在 GitHub 上的项目，主张做“带共享大脑的 AI 员工 Slack”，让 Claude、Codex、OpenClaw 等代理通过 Markdown 和 Git 维护同一套 LLM wiki。它真正抓住的痛点不是聊天入口，而是多代理协作里的上下文丢失、版本混乱和责任链断裂。目前它还不能证明生产级自治，但 Git/wiki 路线值得 agent 工具开发者和试点团队认真拆解。

AI 代理协作wuphfGit

人工智能 2026/4/25

谷歌400亿美元押注Anthropic：现金只是前菜，算力绳才是正餐

谷歌计划向 Anthropic 投入最高400亿美元，但关键细节已经变清：先投100亿美元现金，估值约3500亿美元，后续最多300亿美元要看业绩目标，并伴随更大的算力支持。别把它读成谷歌放弃 Gemini，真正的主线是云、TPU、Claude 和反垄断压力之间的一次防守型进攻。

Anthropic谷歌400亿美元投资

人工智能 2026/4/25

DeepSeek-V4 对上 GPT-5.5：开放权重拼部署，闭源 API 抢入口

DeepSeek-V4 Pro 交出 1.6T MoE、49B 激活参数、1M 上下文和 MIT 许可证；V4 Flash 则是 284B、13B 激活参数，主打更轻部署。OpenAI 的 GPT-5.5 API 同样押注 1M 上下文，并快速进入 Cursor、GitHub Copilot、Devin、OpenRouter、Perplexity、Microsoft Copilot 等工具链。真正要看的不是谁跑分更好看，而是长上下文成本、幻觉率、部署门槛和入口控制权。

DeepSeek-V4GPT-5.5开放权重模型

人工智能 2026/4/25

牛津 All Souls 2025 试卷：AI 时代，精英教育开始考“人还剩什么”

牛津 All Souls College 于 2025 年 10 月 9 日发布 2025 年 General Examination 试题，共 4 页，分 General Paper I 与 II，考生需答 3 题。题目把 AI、人类性、民主、艺术、市场、性别、历史与社会政策放进同一张卷子。真正的信号不是牛津又出怪题，而是顶级人文选拔正在把门槛压到一句话：当知识和表达都能外包，人还靠什么被识别。

AI时代牛津 All Souls CollegeGeneral Examination

人工智能 2026/4/25

AI 越会写，学校越该重做评价：教育不能只验收漂亮文本

《National Catholic Register》评论文章借弥尔顿《论教育》讨论生成式 AI：大模型能高效写作、总结、翻译和辅助教学，但这不等于完成教育。真正的风险不是学生用了 AI，而是学校继续把流畅文字当成理解力。受影响最大的不是某一门作文课，而是学生、教师和学校评价体系。

生成式 AI教育评价AI 写作

人工智能 2026/4/25

深度学习走向“学习力学”：不是黑箱已破，是炼丹开始被训练账单逼出理论

arXiv:2604.21691 这篇 41 页论文提出，深度学习理论正在浮现一套面向训练过程、可量化、可证伪的 learning mechanics，可暂译为“学习力学”。它没有宣布神经网络黑箱已被破解，而是在说：深度学习可能正从经验炼丹，转向能预测、能反驳、能积累的工程科学。最该受影响的是两类人：机器学习理论研究者，以及做大模型训练和基础设施的工程团队。

深度学习学习力学深度学习理论

人工智能 2026/4/25

Google Flow Music 页面露面：AI 音乐工具开始抢工作流入口

Google Flow Music 页面展示了一个 AI 音乐工作室：Lyria 3 生成歌曲和人声，Veo 生成音乐视频，Vibe-code 可搭插件、播放器、音乐游戏和自定义 DAW。重点不在“AI 会写歌”，而在 Google 试图把生成、剪辑、视频、工具和社区入口放进同一条创作路径。独立音乐人和短视频创作者会先受益，版权归属、daily credits、平台推荐和作品同质化会成为后续要盯的账单。

Google Flow MusicAI音乐音乐创作工作流

人工智能 2026/4/25

ChatGPT 越用越多，为什么人们还是不想被 AI 自动化

Simon Willison 转引并高度评价 Nilay Patel 的评论：ChatGPT 使用暴涨，并不等于公众热爱 AI 自动化。Patel 提出的“software brain”点中了科技行业的盲区：把生活当数据库，把人当流程节点。我的判断是，AI 的争议不在“有没有用”，而在企业是否把自己的降本欲望包装成了用户需求。

ChatGPTAI 自动化software brain

人工智能 2026/4/25

Series 融资 510 万美元：AI 社交绕开新 App，直接借道 iMessage

耶鲁两名在校生创办的 Series 完成 510 万美元 pre-seed 融资，投资方包括 Pear VC、Steve Huffman、Iqram Magdon-Ismail 和 Edward Tian。它通过 iMessage 让用户给 AI 发短信，再由 AI 推荐 10 张人脉卡片，并支持不暴露手机号私聊。真正要看的不是大学生创业光环，而是 AI 社交能否把“介绍人”做成可信关系网络，而不是更高效的陌生人流水线。

AI 社交SeriesiMessage

人工智能资讯 第14页

DeepSeek V4 开源权重发布：1M 上下文更实用，但还没掀翻闭源前沿

23岁业余爱好者用 GPT-5.4 Pro 撬开 Erdős 老题：别急着说 AI 取代数学家

别把 AI Agent 当同事，它更该被塞进软件系统

Anthropic 的 AI 代理交易实验：真正的问题是用户看不出代理差距

AI 没有击穿写作和编程，它击穿了知识工作的验货方式

Claude Code 救活个人项目，也把开发者的刹车问题推到台前

OpenAI 的地精口癖：Codex 被迫禁聊 goblin，问题出在奖励函数

Codex 加了 /goal：OpenAI 的 Agent 生意，开始向“自动跑账单”靠拢

东京这场科技会，别只看AI，要看谁真的买单

OpenAI 被枪击案家属起诉后，AI 平台不能再拿“封号”当安全答案

AI Agent 缺的不是更聪明，而是公共约束

LamBench 榜单：gpt-5.4 领跑，但真正该看的不是名次

wuphf 给 AI 代理建共享 wiki：比“AI 员工 Slack”更重要的是 Git 账簿

谷歌400亿美元押注Anthropic：现金只是前菜，算力绳才是正餐

DeepSeek-V4 对上 GPT-5.5：开放权重拼部署，闭源 API 抢入口

牛津 All Souls 2025 试卷：AI 时代，精英教育开始考“人还剩什么”

AI 越会写，学校越该重做评价：教育不能只验收漂亮文本

深度学习走向“学习力学”：不是黑箱已破，是炼丹开始被训练账单逼出理论

Google Flow Music 页面露面：AI 音乐工具开始抢工作流入口

ChatGPT 越用越多，为什么人们还是不想被 AI 自动化

Series 融资 510 万美元：AI 社交绕开新 App，直接借道 iMessage

人工智能资讯第14页