人工智能资讯 第17页
聚合当前分类下的最新内容,按时间顺序查看第 17 页精选文章。

Codex 进 ChatGPT 后,真正的战场不是手机,而是长期工作流
Codex 接入 ChatGPT 手机端,表面看是 OpenAI 把编程助手塞进更大的入口;Jason Liu 的长期使用实践则把另一层意思挑明了:Codex 正在从聊天式代码工具,靠近一个能记事、等反馈、跑流程的个人工作系统。真正的分水岭不在模型会不会写更多代码,而在它能不能接住 Slack、邮件、浏览器、文档、测试和人工审批这些脏活。

DS4 火了:本地 AI 终于摸到生产力门槛
Redis 作者 antirez 的 DwarfStar 4 因 DeepSeek v4 Flash 和 2/8 bit 非对称量化走红,高端本地机器第一次有机会跑出接近严肃可用的 AI 体验。它还不能全面替代 Claude 或 GPT,但已经把本地 AI 从“能跑”推到“部分任务值得用”。真正的门槛不在热度,而在模型、量化、硬件和持续工程能力。

PoopCheck 被曝有人兜售 15 万张粪便图:健康 AI 的数据边界在哪
404 Media 报道称,PoopCheck 相关人员曾在 Reddit 数据交易社区试图出售约 15 万张已标注粪便图片的访问权,数据来源涉及约 2.5 万名用户。目前只能确认有人兜售访问权,不能确认已经成交。更重要的问题是:消费级健康 AI 正在把极私密的身体数据做成可标注、可训练、可报价的资产。

IBM 的 Granite Embedding R2:小模型不抢戏,但很会卡位
IBM 在 Hugging Face 发布 Granite Embedding Multilingual R2:97M 和 311M 两款 Apache 2.0 多语言 embedding 模型,面向 RAG、企业搜索和多语言知识库。97M 主打 sub-100M 检索性价比,311M 主打 32K 长上下文和更高质量。真正要看的不是跑分第一,而是 IBM 把许可、部署、长文档、多语言这些企业落地变量放进了同一个选择里。

Android 开始猜你下一步:Google 的 AI 情境建议,边界在默认开启
Google 正在向部分运行 Android 16 的 Pixel 10 系列设备推送 contextual suggestions,可按位置和习惯预测下一步操作,Google 尚未正式宣布。 这项功能曾出现在 Play Services beta,如今疑似进入稳定渠道,并且看起来默认开启。 真正值得盯的不是它有多聪明,而是系统级 AI 什么时候该出现、能访问什么、用户能不能干净地关掉。

AI 答案谁说了算?Forum AI 想把模型口径放上秤
Campbell Brown 创办的 Forum AI,正在用专家基准和 AI judge 评估大模型在地缘政治、心理健康、金融、招聘等高风险议题上的回答质量。真正值得盯的不是某个模型答错一次,而是 AI 变成信息入口后,谁来定义准确、平衡和可信。对普通用户和企业 AI 采购者来说,下一步要看的不是模型多会说,而是回答规则能不能审计、偏差能不能解释、出事后责任能不能落地。

Clio ARR 达 5 亿美元:法律科技会成为 LLM 下一个高价战场吗
加拿大法律科技公司 Clio 宣布 ARR 达到 5 亿美元,AI 集成后增长明显提速。真正重要的不是一个数字本身,而是法律文本工作流正在成为继代码生成后,LLM 最容易卖出高客单价的企业场景之一。Anthropic 推出 Claude for Legal 新功能后,依赖基础模型的法律 AI 初创公司将面对更复杂的供应商竞争关系。

AI Model ELO History:别只看模型登顶,也要看它后来有没有缩水
AI Model ELO History 基于 Hugging Face 上的 LM Arena Leaderboard Dataset,每日抓取排行榜数据,追踪各大 AI 实验室旗舰模型的最高 ELO 曲线。它的重点不是今天谁第一,而是模型发布后能力、约束和调度是否发生变化。对开发者和产品团队来说,这类长期曲线比发布会分数更接近采购和接入决策。

Edge 让 Copilot 读取多个标签页,AI 浏览器开始考验授权边界
微软正在给 Edge 加入一组 Copilot 功能:在用户开启后,它可读取多个已打开标签页、当前页面,并在授权后访问浏览历史,用来问答、比较商品、总结文章和辅助学习。 这说明 Edge 正从传统浏览器变成带上下文和记忆能力的 AI 浏览入口。 真正要看的不是功能有多炫,而是用户能不能清楚控制:它看了什么、为什么看、看完后怎么用。

Notion 开放 AI Agent 和外部数据接入:协作文档开始抢自动化入口
Notion 发布新的 Developer Platform,Business 和 Enterprise 用户可以把自定义 AI Agent、外部 Agent、外部数据库和自定义代码接进工作区。重点不是多一个 AI 按钮,而是 Notion 想从协作文档工具,往企业知识工作自动化底座靠。对企业 IT 和自动化负责人来说,短期动作不是立刻迁移,而是重估哪些流程能放进 Notion,哪些仍该留给 Zapier、Make 或自建系统。

xAI 46台燃气涡轮机争议:AI数据中心正在试探空气监管边界
当地报道显示,xAI 在密西西比州 Colossus 2 数据中心运行 46 台天然气涡轮机,其中 15 台已获空气污染许可。争议点在于,多数设备因装在平板拖车上,被州方视为“移动设备”,可在一年内规避部分空气污染监管。NAACP 与 Southern Environmental Law Center 已代表居民起诉并申请禁令,这件事真正指向的是:AI 算力扩张能不能把临时电源的环境成本推给周边社区。

普林斯顿把教授请回考场:AI没摧毁荣誉制度,它只是让沉默变贵了
普林斯顿将在部分线下考试中恢复教师监考,给运转了133年的荣誉制度补上现实支架。新披露的毕业生调查更刺眼:29.9%的高年级学生承认至少作弊过一次,44.6%见过作弊却没有举报,问题已经不只是AI工具,而是同侪监督失灵。

Claude 做出 MDV:AI agent 正把原生软件变成“个人配置”
一名开发者用 Claude 做出 macOS 原生 Markdown 查看器 MDV,总耗时数小时,其中交互时间约 30 分钟,并已在 GitHub 开源。MDV 本身不是重点,更重要的是 AI agent 正在降低原生 GUI 开发门槛,让个人工具从终端脚本和编辑器配置扩展到桌面应用。

“11 个 AI agents”,听起来很强,其实什么也没说
Simon Willison 摘引了 Boris Mann 的一句话:说自己有“11 个 AI agents”,和说自己有 11 个表格、11 个浏览器标签差不多,都不能说明真实能力。真正该追问的不是 agent 数量,而是它们能独立完成什么、能承担什么责任、能减少多少人工协调。

Claude 进小企业:AI 不再陪聊,开始摸账本了
Anthropic 推出 Claude for Small Business,把 Claude 接进 QuickBooks、PayPal、HubSpot、Canva、Docusign、Google Workspace、Microsoft 365 等工具,瞄准小企业的财务、销售、营销、合同和客服杂活。更关键的细节是,它不是单纯卖一个聊天机器人,而是用 15 个现成工作流把 AI 放进经营现场;这强化了一个判断:AI 平台战开始贴地飞行,入口不在模型榜单,而在小老板每天处理的账本、发票和客户跟进里。

Meta AI 的无痕聊天更进一步:不留日志还加密,用户的真心话成了平台硬成本
扎克伯格宣布 Meta AI 将推出 Incognito Chat,号称服务器不保存对话日志,并采用端到端加密,未来数月进入 WhatsApp 和 Meta AI app。和普通 AI 聊天的“临时模式”相比,Meta 这次把牌打到了更硬的一层:不是不进历史记录,而是声称连 Meta 也读不到。问题也因此更尖锐:AI 必须处理你的输入,平台又说自己看不见,真正要看的不是口号,是技术边界和审计。

Anthropic 在 Ramp 样本中反超 OpenAI:企业买 AI,开始不只认名气
Ramp 最新 AI Index 显示,在 5 万多家客户样本中,34.4% 企业付费使用 Anthropic,首次超过 OpenAI 的 32.3%。 这不是全球企业 AI 市场份额排名,只能说明 Ramp 样本里的客户渗透率变化。 真正该看的不是谁登顶,而是企业 AI 采购正在从品牌心智,转向执行、场景和技术团队口碑。

AI 代码占比冲高后,工程师开始替它付审查账
Google 称新代码 75% 由 AI 生成,微软、Anthropic 也在宣传更高的 AI 编程占比;但匿名开发者反馈显示,采用压力、审查负担和技术债正在上升。问题不在 AI 会不会写代码,而在管理层把使用率当成绩效和叙事指标。对开发者和技术管理者来说,下一步该看代码质量、审查成本和新人能力建设,而不是只看生成比例。

Alexa 接管亚马逊搜索框:购物 AI 从导购走到代购
Amazon 推出由 Alexa+ 驱动的 Alexa for Shopping,面向美国用户开放,并取代 2024 年上线的 Rufus。关键变化不只是搜索栏多了聊天入口,而是 AI 开始连接推荐、比价、价格追踪、周期补货和部分站外购买;便利是真的,平台控制力也更重了。

AutoScientist 发布:别急着喊模型自我进化,它盯上的是训练门槛
Adaption 发布 AutoScientist,基于既有 Adaptive Data,把数据集优化和模型微调接成一个自动化闭环。它不等于模型自主科研,也不是递归自我进化,更像是在把垂直能力微调从少数高手手里拆出来。真正要看的,是企业和中小 AI 团队能不能用它稳定复现效果,而不是被“win-rate 翻倍”一句话带跑。

Substrate 招 TSM:医疗 AI Agent 落地,缺的不是演示,是排雷的人
Substrate 这条招聘的反常点很明确:岗位叫 Technical Success Manager,实际要求会 SQL、读代码、查生产数据库、懂 LLM/evals,还要承担留存或扩张责任。它暴露的不是一个普通客户成功岗位,而是医疗 AI Agent 进入真实 RCM 流程后,前线岗位正在变成半工程、半实施、半销售。对 AI Agent 和 B2B SaaS 团队来说,接下来要看的不是 demo 多顺,而是生产排障、责任归属和客户续用能力。