人工智能资讯 第25页
聚合当前分类下的最新内容,按时间顺序查看第 25 页精选文章。

GPT-5.5 Instant 当默认模型后,OpenAI 又补了一张安全账单
GPT-5.5 Instant 成为 ChatGPT 默认模型,表面看是一次体验升级:更快、少胡说、更适合高频对话。但 OpenAI 随后发布的 System Card 补上了关键变量:Instant 系列首次在网络安全、生物与化学准备两类中按 High capability 管理。我的判断是,快模型不再只是便宜顺手的默认选项,它已经进入了更重的治理区间。

datasette-llm 连发小修:默认参数和调用账本,才是 LLM 进生产的硬门槛
Simon Willison 的 datasette-llm 0.1a7 增加了模型默认选项配置,datasette-llm-accountant 0.1a4 又修复了 response chains 跟踪问题。两个小版本都不炫,但共同指向一件事:LLM 应用从 demo 走向生产,关键不只是模型会不会答,而是参数能不能管住、调用能不能查清、成本能不能落账。

OpenAI 被曝加速造手机:它要抢的不是硬件生意,而是 ChatGPT 入口
供应链分析师郭明錤称,OpenAI 正在加速推进首款手机硬件,目标 2027 年初量产;消息经 MacRumors 报道,OpenAI 尚未正式确认。传闻中的配置指向定制版联发科 Dimensity 9600、强化 ISP、增强 HDR、双 NPU、LPDDR6 和 UFS 5.0。真正要看的不是 OpenAI 会不会多卖一部手机,而是 AI 公司是否开始把入口从 App 往终端硬件前移。

Etsy 进 ChatGPT:抢到对话入口,不等于拿回成交钥匙
Etsy 已在 ChatGPT 内上线原生应用 beta,用户可在提示词里 @Etsy,用自然语言找商品、比结果,再跳转 Etsy 查看或购买。它更像 Etsy 在 Instant Checkout 销量有限后,改押“发现入口”的一次防守型进攻。方向是对的,但转化跳转、排序信任和对 ChatGPT 的依附,都会决定这事能走多远。

Islo 上的 200 行 meta-harness POC:跑分很小,留痕很关键
Yossi Eliaz 发布了一个 MIT 授权的 meta-harness POC:约 200 行 bash 编排器,在离线 deterministic simulator 上把 5 个玩具任务从 0/5 推到 5/5。它更像一次 agent/eval 基础设施演示,不是 agent 能力突破。真正值得看的是 Islo 的 snapshot、并行 fork 和 logs,是否补上 meta-harness 最依赖的可复现环境和诊断轨迹。

从 Numa Numa 到 AI 垃圾:互联网的快乐早被平台优化掉了
一篇个人博客把 2004 年 Numa Numa、Newgrounds、早期 YouTube/Facebook,与 TikTok 对口型、MrBeastification 和 AI slop 放在一起看。它的判断很准:AI 不是互联网变无聊的起点,平台早把人训练成了迎合推荐系统的内容机器。真正该观察的,不是 AI 会不会更像人,而是平台还奖不奖励笨拙、偶然和非模板化表达。

马斯克诉 OpenAI 结案:DeepMind 的阴影还在,但账本已经上桌
Musk v. Altman 案进入结案陈词,马斯克一方主打“OpenAI 背叛初心”,但法庭呈现出来的更像是一场控制权旧账清算。新披露的庭审碎片补强了一个判断:OpenAI 早期路线确实被 DeepMind 的竞争压力塑形,但今天真正决定胜负的,已不是口号,而是证据、治理、算力、人才和组织机器。

AI进了汽车设计室,但还不是在替车企造整车
The Vergecast 讨论的不是“AI 已经独立造出量产车”,而是车企把 AI 放进模型制作、风洞测试和设计迭代。传统新车从立项到量产可能耗时五年或更久,AI 最先改变的是研发反馈速度。真正要警惕的是,效率工具会不会被包装成裁员和责任外包的理由。

Krutrim 转向 AI 云:印度首个 GenAI 独角兽开始面对账本
Krutrim 正把重心从自研大模型转向 AI 云服务,背后有裁员、产品下架、模型更新放缓和芯片设计暂停。公司称 FY2026 收入约 30 亿卢比并首次盈利,但外部客户收入占比仍未披露。真正的分水岭不是它还做不做模型,而是谁在为它的 GPU 和云服务持续付钱。

100 个 AI 工具进了坟场:AI 没死,薄包装先死
ToolDirectory.AI 维护的 AI Graveyard 清单显示,其目录中 100 个曾上架 AI 工具已关停、域名失效,或被收购后并入其他产品,页面标注 2026 年条目达 88 个。它不能代表全行业死亡率,但足够提醒一件事:AI 应用层正在从“会做 demo”进入“能不能交付、分发、续费”的清算期。企业采购和 AI wrapper 创业者都该重新算账。

Meta用AI查13岁以下用户:护童还是自动化监控?
Meta将用AI分析Facebook和Instagram上的照片、视频和文本线索,识别疑似13岁以下用户,并要求验证年龄。它补的是平台长期依赖自报生日的漏洞,但风险也很直接:更多普通内容会被纳入年龄判断。真正该盯的不是“AI看骨骼”这个噱头,而是误判后怎么申诉、验证材料怎么处理、哪些地区会扩大使用。

人人都在用 AI,公司为什么还是没学会
Robert Glaser 讨论的是企业 AI 普及后的“混乱中段”:员工都在用 Copilot、ChatGPT、Claude、Cursor,但经验停在个人手里。真正的分水岭不是有没有买 AI,而是能不能把零散工作循环里的发现,变成组织可复用的能力。最危险的误区,是把 AI 落地做成使用率考核,最后拿到一堆可见产出,丢掉真正的学习。

DeepMind员工工会化:AI军工合同被拉上谈判桌
Google DeepMind伦敦总部员工投票推动工会化,DeepMind内部CWU成员中98%支持,要求Google承认CWU和Unite为联合代表。 诉求不只指向以色列和美国军事相关合同,也包括员工拒绝违背个人伦理项目、就AI影响岗位和工作量进行谈判。 这件事真正刺到AI公司的地方,是把模型用途控制权从公司声明拖进劳资谈判。

代码变便宜之后,程序员真正贵在什么
David Breunig 总结了面向 Codex、Claude Code 等编程 Agent 的 10 条经验,重点不是模型能不能写代码,而是代码变便宜后,工程流程该怎么改。 真正没有变便宜的是反馈、判断、责任、维护和安全。开发者要把价值放到边界定义和行为验证上,技术负责人要先补测试、规格和评审,再谈提效。

Chrome 塞进 4GB Gemini Nano:本地 AI 可以默认开,账不能默认藏
Chrome 被发现可能在本地下载约 4GB 的 Gemini Nano 模型权重,用来支撑诈骗检测、写作辅助、自动填充等端侧 AI 功能。The Verge 补强了几个关键细节:这不是所有用户都会遇到,通常和某些 On-Device AI 功能有关;删掉文件不等于解决,关掉对应开关才可能阻止它回来。我的判断很简单:本地 AI 方向没错,但平台不能把用户硬盘当成 AI 战略的免告知配额。

一小时手写小 GPT:llm-from-scratch 教的不是造 ChatGPT
angelos-p/llm-from-scratch 把 GPT 训练拆成一个可跑通的教学工作坊:手写 tokenizer、模型、训练循环和生成脚本。默认模型约 1000 万参数,作者称 M3 Pro 上约 45 分钟完成训练,目标只是生成 Shakespeare-like text。它适合想补 Transformer 训练原理的 Python 开发者和技术讲师,不适合拿来做聊天机器人或企业应用原型。

OpenAI 把 AI agent 推进 CFO 办公室,真正难的不是自动化
OpenAI 与 PwC 合作,把 AI agents 引入 CFO 办公室,目标覆盖采购、预测、报表、税务、资金、关账等核心财务流程。更关键的是,OpenAI 先把自己财务团队当“customer zero”验证:Codex 支撑同等团队处理 5 倍合同,IR-GPT 支撑近期融资中 200 多次投资者互动。这事的分水岭不在模型多会聊天,而在 AI 能不能进入强控制、可追责、要算账的企业生产环境。

黄仁勋说 AI 在创造岗位,但这还回答不了就业焦虑
黄仁勋在 Milken Institute 对话中称“AI creates jobs”,并把 AI 视为美国再工业化的最佳机会。这个判断抓住了算力和制造扩张带来的新需求,但还不能证明被替代的人能拿到新岗位。真正要看的不是 AI 会不会笼统地“消灭工作”,而是哪类任务被降价,哪些岗位被重估。

AI 写代码越快,团队越容易欠下认知债
Margaret Storey 汇总开发者、Simon Willison、Martin Fowler 等人的反馈后,把一个问题摆到台面上:生成式 AI 和 Agentic AI 正在让系统变化速度超过团队理解速度。认知债务不是代码质量差,而是系统演化与团队共享理解之间的缺口。真正受压的会是 review、调试、onboarding,以及技术负责人对系统风险的判断。

Claude 像会反驳的人,GPT 像逻辑义肢:AI 助手开始分两条路
Latent Space 借 Roon 对 Claude 与 GPT 的讨论,把问题拉回产品选择:用户要的是会推回来的 AI 伙伴,还是低摩擦的执行工具。Claude 更容易被感知为有边界的“他者”,GPT 更常被当作能力放大器,但这不是人格高低之分。对产品经理和 agent 团队来说,下一轮竞争不只在模型,也在 harness、上下文管线和多模型编排。

AI Agent 开始拼系统工程:模型、编排和账单一起决定成败
AINews 对 5 月 1 日至 4 日 AI 社区的回顾显示,讨论重心从单个模型能力转向上下文管线、Agent harness、多模型编排和编码代理成本。几个 benchmark 提升更像是在提醒开发者:Agent 表现不能只看模型权重,还要看 prompt、middleware 和 harness 怎么组织任务。对应用团队和技术管理者来说,下一步不是盲目换模型,而是重新评估编排框架、上下文策略和 token 成本。