每日 AI 资讯速递
今日AI领域迎来多项重大突破与政策落地:OpenAI 发布 GPT-5.5 Instant,在健康智能领域实现 71% 的错误率下降并免费开放;Anthropic 的 Claude Opus 4.7 自主操控机器狗,速度比人类团队快 20 倍;我国首部 L3/L4 自动驾驶强制性国标公示,行业竞争逻辑转向安全实证。此外,阿里开源十亿级向量数据库 Zvec,DeepSeek 研究员开源 AutoResearch 实现 AI 自主科研闭环,为开发者生态注入新活力。
🤖 大模型与前沿技术
GPT-5.5 Instant提升ChatGPT健康智能
每周超 2.3 亿用户通过 ChatGPT 获取健康信息。GPT-5.5 Instant 在 HealthBench 评测中表现显著提升,回复在准确性、安全性和沟通质量上优于医生手写回复,近两个月健康类回复事实性问题率下降 71%,已面向所有免费用户开放。
产品更新评测
Anthropic Project Fetch 第二阶段:Claude Opus 4.7 自主完成任务,速度比人类团队快约20倍
Anthropic 发布 Project Fetch 第二阶段结果,Claude Opus 4.7 无需人类协助即完成所有四足机器人操控任务,速度比最快人类团队快约 20 倍,比无 AI 团队快 37 倍以上,编码量减少近 10 倍。这些进展源于通用模型规模化,而非针对机器人领域的专项优化。
智能体具身智能
Nature两篇研究:MIRA和AMIE诊断与治疗计划媲美甚至超越医生
德国团队开发的 MIRA 智能体在 500 余例急诊诊断中准确率达 88.9%,高于资深专科医生(78.1%)。谷歌 AMIE 在 100 个多访视病例中治疗计划适切率 95%(初级保健医生 72%)。两项研究均警告模拟环境与现实存在差距,实际性能可能更低。
智能体医疗
NVIDIA Research 发布 SpatialClaw:免训练空间推理框架
NVIDIA Research 发布 SpatialClaw,通过将代码作为动作接口,让智能体调用感知工具并自由组合输出。在 20 项基准测试中平均准确率达 59.9%,比近期智能体 SpaceTools 高 11.2 个百分点。框架无需重新训练,同一提示词和工具集可跨所有基准运行。
智能体具身智能
🚀 产品发布与更新
美团tabbit国际版免费接入GPT-5.5/Claude Opus 4.8等旗舰模型
美团近期上线 tabbit 国际版应用,免费集成 GPT-5.5、Claude Opus 4.8、Gemini 3.5 Flash 以及国内 Kimi-2.6、GLM-5.1、MiniMax-M3 等多家顶级模型。用户无需单独订阅即可使用,旨在抢占 AI 入口,目前处于免费推广阶段。
产品更新推理
Claude Code 现已支持 artifacts
Claude Code 可将工作进度生成为实时、可分享的交互式网页,涵盖 PR 走查、系统说明、仪表盘等。artifacts 基于会话完整上下文自动构建,更新时页面原地刷新,同事即时可见。内部测试中最常见用例为调试,团队无需再“走过场式汇报”。
产品更新编码
Humanize PPT v0.9:为演讲而生的开源PPT Skill
Humanize PPT v0.9 专为演讲场景设计,核心通过 AST 逻辑重新编排大纲,渲染前输出 4 张真实预览页。新增质检环节自动修复常见渲染问题,并支持演讲模式:按 S 键显示演讲稿备注,按 ESC 键打开全局索引快速跳页。
开源工具
💼 行业动态
微软双向转售GPT与DeepSeek成全球最大AI中间商
彭博社报道,微软已成为全球最大 AI 模型中转站,既将 ChatGPT 卖给中国企业,也反向将 DeepSeek 模型卖给西方客户。报道称微软正在测试 DeepSeek-R1 和 DeepSeek-V4,计划向西方客户提供这些中国模型,构建起跨中美 AI 模型的双向贸易网络。
行业动态DeepSeek
阿里开源向量数据库Zvec,对标Pinecone每月70美元能力
阿里开源内部向量数据库 Zvec,pip install zvec 免费使用,支持十亿向量毫秒级检索,无需单独起服务,全平台兼容。v0.5.0 新增原生全文混合搜索。UCSD 黄碧薇教授同时提出 AI 四代范式,认为当前正站在因果大模型门口。
开源检索增强
Elasticsearch上构建持久化代理内存层,召回率0.89
Agent Builder 正式上市,基于 Elasticsearch 的持久化内存层将记忆分为情景、语义、程序三类,采用 BM25 与 Jina v5 稠密向量的 RRF 融合,再经交叉编码器重排序。在 168 道 QA 题评估中,R@10 平均 0.89,零跨租户泄漏,已开源至 GitHub。
智能体开源
🏛️ 政策法规
八部门联合发文力推"人工智能 + 消费"
商务部等 8 部门印发《关于加快“人工智能 + 消费”发展的实施意见》,从 5 方面提出 17 条举措。重点包括扩大 AI 手机电脑、智能家居、智能网联汽车等供给,推动 AI 与居家、养老、文旅、餐饮等融合,建设集聚区和体验中心。
政策端侧
我国首部L3/L4自动驾驶强制性国标公示:2027年7月起实施
工信部就《智能网联汽车自动驾驶系统安全要求》等 2 项强制性国标公开征求意见,系我国首部针对 L3/L4 的强制性国标。要求系统安全水平至少达到“合格且专注驾驶人”,引入 Safety Case 机制。新申请车型实施日起执行,已获批车型有约一年过渡期。
政策自动驾驶
JAWBONE Act:打击政府为压制合法网络言论而施压的新法案
参议员 Ted Cruz 和 Ron Wyden 提出两党法案 JAWBONE Act,为受政府胁迫的广播商、AI 提供商创建针对政府官员的联邦诉讼权,并建立政府与中间方就用户表达问题沟通的透明度体系。EFF 支持该法案,并举证 2025 年 6 月联邦高官威胁起诉 ICEBlock 创建者。
政策监管
🎓 学术研究
DeepSeek研究员开源AutoResearch:AI自主跑通285B模型RL研究闭环
DeepSeek 研究员 Deli Chen 将 AutoResearch 协议开源,其 AI 智能体首次完全自主地在 DeepSeek 285B 模型上完成完整 RL 研究闭环——从实验设计、写代码、提交 GPU 任务、debug 到结论总结,全程零人工干预。系统调用了 GRPO 工具,被视为持续学习研究的开端。
智能体开源
HumanScale:自我中心人类视频在具身预训练中可超越真实机器人数据
HumanScale 项目发现,基于自我中心人类视频预训练的模型在真实机器人动作预测上验证损失降低 24%,分布内任务成功率高 52.5%,分布外任务成功率高 90%。研究验证了可扩展范式:先以人类视频预训练,再以少量机器人数据微调对齐动作空间。
具身智能训练
MosaicLeaks:你的研究智能体能保守秘密吗?
深度研究智能体在结合私有本地文档与外部网页检索时存在隐私泄露风险。MosaicLeaks 提出包含 1,001 条多跳研究链的新任务,测试发现智能体频繁泄露私有信息。基于此提出的隐私感知深度研究训练方法,将严格链成功率从 48.7% 提升至 58.7%,同时将泄露率从 34.0% 降至 9.9%。
智能体安全
🔧 开源项目与教程
开源教程《Deep Agents 实战》发布
LangChain 官方认证大使推出开源教程《Deep Agents 实战》,基于 LangChain/LangGraph 生态,核心为“三层架构”:Runtime、Framework、Harness。技术内核为上下文工程,通过虚拟文件系统实现按需读取、中间结果落盘、大文件局部读取,共 8 章 + 2 个附录。
智能体教程
baoyu-design Skill迭代:支持AI配图导出PPTX
宝玉分享 baoyu-design Skill 迭代过程:用户测试发现导出样式问题后,让 Agent 分析原因、给出解决方案并添加测试覆盖。该 Skill 可在制作 PPT、动画视频时调用 AI 生图配图,支持连同图片一起导出为 PPTX,在 PowerPoint/Keynote 中二次编辑。
智能体教程
Salesforce CodeGen教程:生成、验证并重排序Python函数
本教程实现基于 Salesforce CodeGen 的端到端代码生成工作流,支持 350M、2B 等多个版本。通过自然语言提示生成 Python 函数,随后进行语法检查、静态安全检查、单元测试验证、best-of-N 候选重排序等,展示了 CodeGen 作为结构化代码生成流水线的能力。
开源编码
驾驭 Claude Code:CLAUDE.md、技能、钩子、规则、子智能体等
Claude Code 提供七种自定义指令方式,包括 CLAUDE.md、规则、技能、子智能体、钩子、输出样式和附加系统提示。每种方式在加载时机、压缩行为、上下文成本和适用场景上各有不同,例如 CLAUDE.md 适合存放构建命令与编码规范,子智能体用于并行隔离任务。
工具编码
📝 编辑点评
今日的 AI 行业呈现出三大清晰趋势:一是医疗 AI 从“辅助诊断”迈入“临床级应用”,GPT-5.5 Instant 的 71% 错误率下降和 Nature 上 MIRA/AMIE 的医生级表现,证明 AI 在健康领域的价值已从概念验证进入规模落地阶段;二是具身智能的“数据策略”发生反转,HumanScale 的研究表明人类视频预训练效果反超真实机器人数据,这可能会重塑整个机器人学习的数据采集思路;三是政策层面加速“定规矩”,从八部门力推“AI+消费”到首部 L3/L4 强制国标公示,产业发展的确定性在增强。值得特别关注的是,微软作为跨中美模型“中间商”的角色正在重塑全球 AI 供应链,而 AutoResearch 和 MosaicLeaks 则提醒我们:AI 自主科研能力在快速提升,但隐私泄露等新风险也需要同步建立防护机制。
安卿辰博客







