人工智能资讯 第14页

聚合当前分类下的最新内容,按时间顺序查看第 14 页精选文章。

DeepSeek V4 开源权重发布:1M 上下文更实用,但还没掀翻闭源前沿
人工智能 2026/4/26

DeepSeek V4 开源权重发布:1M 上下文更实用,但还没掀翻闭源前沿

DeepSeek V4 Pro 和 V4 Flash 发布开源权重,主打 1M token 上下文、Base/Instruct 双版本、MIT 许可,并支持华为 Ascend/CANN 生态运行。它真正推进的是长上下文推理成本和部署自由度,不是综合能力全面反超闭源模型。对研发和基础设施团队来说,现在更适合进入评测、迁移测算和算力路线对比,而不是立刻押注全量替换。

DeepSeek V4开源权重模型长上下文
23岁业余爱好者用 GPT-5.4 Pro 撬开 Erdős 老题:别急着说 AI 取代数学家
人工智能 2026/4/26

23岁业余爱好者用 GPT-5.4 Pro 撬开 Erdős 老题:别急着说 AI 取代数学家

23岁的 Liam Price 没有高等数学训练,却用 ChatGPT Pro 中的 GPT-5.4 Pro 得到一个 Erdős 原始集合问题的解法草稿,并发布到 erdosproblems.com。关键不在于 AI 独立完成严格证明,而在于模型给出了一条此前专家没有用于这类问题的连接。Terence Tao 和 Jared Lichtman 的态度也很克制:原始输出粗糙,人类专家仍要理解、验证、压缩和重写。

GPT-5.4 ProChatGPT ProAI数学
别把 AI Agent 当同事,它更该被塞进软件系统
人工智能 2026/4/26

别把 AI Agent 当同事,它更该被塞进软件系统

Feldera 联合创始人 Gerd Zellweger 发文反对把 AI Agent 设计成“聊天同事”,主张把它们嵌进软件,用 CLI、声明式规格、调和循环和 CDC 数据流工作。关键判断是:Agent 落地的分水岭不在更像人,而在软件是否愿意为机器协作重做接口、状态和数据流。对企业软件、数据平台和 Agent 工具链团队来说,这会直接影响产品架构、采购判断和开发优先级。

AI Agent企业软件Feldera
Anthropic 的 AI 代理交易实验:真正的问题是用户看不出代理差距
人工智能 2026/4/26

Anthropic 的 AI 代理交易实验:真正的问题是用户看不出代理差距

Anthropic 做了一个名为 Project Deal 的小型试点市场,让 AI 代理代表买家和卖家,用真实商品和真实钱完成交易。 实验规模不大:69 名自选员工、每人 100 美元礼品卡预算、186 笔交易、总额超过 4000 美元。 更值得盯的是:更先进模型代表用户时,客观结果更好,但用户未明显感知差距。代理商业的风险不在会不会砍价,而在议价能力开始被模型等级重新分配。

AnthropicProject DealAI代理
AI 没有击穿写作和编程,它击穿了知识工作的验货方式
人工智能 2026/5/11

AI 没有击穿写作和编程,它击穿了知识工作的验货方式

AI 正在把软件工程里的分水岭暴露出来:会不会生成代码已经不稀缺,能不能解释、校验和负责才值钱。新线索把“知识工作仿真化”这个判断落到了工程现场:输出越来越像真的,组织却更难判断一个人到底懂不懂。

AI知识工作软件工程
Claude Code 救活个人项目,也把开发者的刹车问题推到台前
人工智能 2026/5/10

Claude Code 救活个人项目,也把开发者的刹车问题推到台前

Claude Code 让一些开发者把搁置多年的个人项目重新跑起来,甚至开始重写自己的桌面环境;新线索补上的关键一面是:AI 编程不只在提效,也在改变人的启动、反馈和付费行为。真正受影响的不是所有普通用户,而是独立开发者、知识工作者和正在给 AI 编程工具定预算的团队。

Claude CodeAI 编程工具独立开发者
OpenAI 的地精口癖:Codex 被迫禁聊 goblin,问题出在奖励函数
人工智能 2026/4/30

OpenAI 的地精口癖:Codex 被迫禁聊 goblin,问题出在奖励函数

OpenAI 承认,GPT-5.1 的 Nerdy 人格训练让模型学会了频繁使用 goblin、gremlin 等怪物隐喻,这种风格还外溢到后续模型和 Codex。真正值得警惕的不是“地精”这个词,而是人格化训练、偏好数据复用和奖励边界没关严,最后把一个小口癖养成了产品习气。

OpenAICodexGPT-5.1
Codex 加了 /goal:OpenAI 的 Agent 生意,开始向“自动跑账单”靠拢
人工智能 2026/5/1

Codex 加了 /goal:OpenAI 的 Agent 生意,开始向“自动跑账单”靠拢

Codex CLI 0.128.0 新增 /goal,用户设定目标后,编码代理会持续循环执行,直到自评完成或耗尽 token 预算。这个细节补强了一个更大的判断:OpenAI 不再只是卖更强模型,而是在把 Codex、Azure 松绑和 Agent 工作流一起推向可计费、可控制、可规模化的执行层。

OpenAICodex CLI/goal
东京这场科技会,别只看AI,要看谁真的买单
人工智能 2026/4/26

东京这场科技会,别只看AI,要看谁真的买单

SusHi Tech Tokyo 2026 将于 4 月 27-29 日在 Tokyo Big Sight 举办,主题压在 AI、机器人、韧性城市和娱乐四条线。TechCrunch 是官方媒体合作方,所谓“2026 最重要科技目的地”要打折看。更有价值的判断是:东京正在把城市治理、制造业和文化 IP 变成技术落地的展台。

SusHi Tech Tokyo 2026AIRobotics
OpenAI 被枪击案家属起诉后,AI 平台不能再拿“封号”当安全答案
人工智能 2026/4/29

OpenAI 被枪击案家属起诉后,AI 平台不能再拿“封号”当安全答案

加拿大 Tumbler Ridge 校园枪击案家属在加州起诉 OpenAI,称公司早在案发八个多月前就把涉案 ChatGPT 账号标记为“可信的现实枪支暴力威胁”,却没有报警,只做了封号处理。和此前 OpenAI 道歉相比,诉讼把争议从公关层面推到了法律层面:AI 平台知道具体危险后,到底有没有预警义务。

OpenAIChatGPTAI平台安全
AI Agent 缺的不是更聪明,而是公共约束
人工智能 2026/4/26

AI Agent 缺的不是更聪明,而是公共约束

Mark Nottingham 质疑 AI Agent 热潮:真正缺口不在模型能力,而在它是否像浏览器 User Agent 那样有公开规则、可审计边界和利益制衡。若 Agent 只是平台塞进来的黑箱助手,它就更像新的权力中介。企业采购和产品团队现在该看的不是演示多顺,而是权限、日志、退出机制和责任边界。

AI Agent信任边界用户代理
LamBench 榜单:gpt-5.4 领跑,但真正该看的不是名次
人工智能 2026/4/25

LamBench 榜单:gpt-5.4 领跑,但真正该看的不是名次

Victor Taelin 发布 LamBench,用 120 道 Lambda Calculus 题测试大模型的形式推理和代码相关能力。gpt-5.4 以 110/120 排第一,opus-4.6、gpt-5.3-codex 紧随其后;但 120 题的小榜单不能当通用智能排名。更重要的问题是:模型会写代码,不等于能在形式系统里稳定计算。

LamBench大模型评测Lambda Calculus
wuphf 给 AI 代理建共享 wiki:比“AI 员工 Slack”更重要的是 Git 账簿
人工智能 2026/4/25

wuphf 给 AI 代理建共享 wiki:比“AI 员工 Slack”更重要的是 Git 账簿

wuphf 是一个公开在 GitHub 上的项目,主张做“带共享大脑的 AI 员工 Slack”,让 Claude、Codex、OpenClaw 等代理通过 Markdown 和 Git 维护同一套 LLM wiki。它真正抓住的痛点不是聊天入口,而是多代理协作里的上下文丢失、版本混乱和责任链断裂。目前它还不能证明生产级自治,但 Git/wiki 路线值得 agent 工具开发者和试点团队认真拆解。

AI 代理协作wuphfGit
谷歌400亿美元押注Anthropic:现金只是前菜,算力绳才是正餐
人工智能 2026/4/25

谷歌400亿美元押注Anthropic:现金只是前菜,算力绳才是正餐

谷歌计划向 Anthropic 投入最高400亿美元,但关键细节已经变清:先投100亿美元现金,估值约3500亿美元,后续最多300亿美元要看业绩目标,并伴随更大的算力支持。别把它读成谷歌放弃 Gemini,真正的主线是云、TPU、Claude 和反垄断压力之间的一次防守型进攻。

Anthropic谷歌400亿美元投资
DeepSeek-V4 对上 GPT-5.5:开放权重拼部署,闭源 API 抢入口
人工智能 2026/4/25

DeepSeek-V4 对上 GPT-5.5:开放权重拼部署,闭源 API 抢入口

DeepSeek-V4 Pro 交出 1.6T MoE、49B 激活参数、1M 上下文和 MIT 许可证;V4 Flash 则是 284B、13B 激活参数,主打更轻部署。OpenAI 的 GPT-5.5 API 同样押注 1M 上下文,并快速进入 Cursor、GitHub Copilot、Devin、OpenRouter、Perplexity、Microsoft Copilot 等工具链。真正要看的不是谁跑分更好看,而是长上下文成本、幻觉率、部署门槛和入口控制权。

DeepSeek-V4GPT-5.5开放权重模型
牛津 All Souls 2025 试卷:AI 时代,精英教育开始考“人还剩什么”
人工智能 2026/4/25

牛津 All Souls 2025 试卷:AI 时代,精英教育开始考“人还剩什么”

牛津 All Souls College 于 2025 年 10 月 9 日发布 2025 年 General Examination 试题,共 4 页,分 General Paper I 与 II,考生需答 3 题。题目把 AI、人类性、民主、艺术、市场、性别、历史与社会政策放进同一张卷子。真正的信号不是牛津又出怪题,而是顶级人文选拔正在把门槛压到一句话:当知识和表达都能外包,人还靠什么被识别。

AI时代牛津 All Souls CollegeGeneral Examination
AI 越会写,学校越该重做评价:教育不能只验收漂亮文本
人工智能 2026/4/25

AI 越会写,学校越该重做评价:教育不能只验收漂亮文本

《National Catholic Register》评论文章借弥尔顿《论教育》讨论生成式 AI:大模型能高效写作、总结、翻译和辅助教学,但这不等于完成教育。真正的风险不是学生用了 AI,而是学校继续把流畅文字当成理解力。受影响最大的不是某一门作文课,而是学生、教师和学校评价体系。

生成式 AI教育评价AI 写作
深度学习走向“学习力学”:不是黑箱已破,是炼丹开始被训练账单逼出理论
人工智能 2026/4/25

深度学习走向“学习力学”:不是黑箱已破,是炼丹开始被训练账单逼出理论

arXiv:2604.21691 这篇 41 页论文提出,深度学习理论正在浮现一套面向训练过程、可量化、可证伪的 learning mechanics,可暂译为“学习力学”。它没有宣布神经网络黑箱已被破解,而是在说:深度学习可能正从经验炼丹,转向能预测、能反驳、能积累的工程科学。最该受影响的是两类人:机器学习理论研究者,以及做大模型训练和基础设施的工程团队。

深度学习学习力学深度学习理论
Google Flow Music 页面露面:AI 音乐工具开始抢工作流入口
人工智能 2026/4/25

Google Flow Music 页面露面:AI 音乐工具开始抢工作流入口

Google Flow Music 页面展示了一个 AI 音乐工作室:Lyria 3 生成歌曲和人声,Veo 生成音乐视频,Vibe-code 可搭插件、播放器、音乐游戏和自定义 DAW。重点不在“AI 会写歌”,而在 Google 试图把生成、剪辑、视频、工具和社区入口放进同一条创作路径。独立音乐人和短视频创作者会先受益,版权归属、daily credits、平台推荐和作品同质化会成为后续要盯的账单。

Google Flow MusicAI音乐音乐创作工作流
ChatGPT 越用越多,为什么人们还是不想被 AI 自动化
人工智能 2026/4/25

ChatGPT 越用越多,为什么人们还是不想被 AI 自动化

Simon Willison 转引并高度评价 Nilay Patel 的评论:ChatGPT 使用暴涨,并不等于公众热爱 AI 自动化。Patel 提出的“software brain”点中了科技行业的盲区:把生活当数据库,把人当流程节点。我的判断是,AI 的争议不在“有没有用”,而在企业是否把自己的降本欲望包装成了用户需求。

ChatGPTAI 自动化software brain
Series 融资 510 万美元:AI 社交绕开新 App,直接借道 iMessage
人工智能 2026/4/25

Series 融资 510 万美元:AI 社交绕开新 App,直接借道 iMessage

耶鲁两名在校生创办的 Series 完成 510 万美元 pre-seed 融资,投资方包括 Pear VC、Steve Huffman、Iqram Magdon-Ismail 和 Edward Tian。它通过 iMessage 让用户给 AI 发短信,再由 AI 推荐 10 张人脉卡片,并支持不暴露手机号私聊。真正要看的不是大学生创业光环,而是 AI 社交能否把“介绍人”做成可信关系网络,而不是更高效的陌生人流水线。

AI 社交SeriesiMessage