每日 AI 资讯速递
今日 AI 行业看点密集:小米以自动驾驶征服纽北赛道,创下全球首个圈速纪录;阿里开源高性能向量数据库,为 RAG 应用提供免费替代方案;微软则悄然成为横跨中美模型的双向“中间商”。与此同时,监管与伦理议题升温,美国多位警长滥用车牌追踪系统的案件引发对监控技术的深刻反思。
🚀 行业动态
开辟新赛道:小米 YU7 GT 创全球首个纽北自动驾驶圈速纪录,官方圈速榜新增"自动驾驶"分类
小米 YU7 GT(选配赛道专业套装)在纽博格林北环赛道以自动驾驶系统完成全程无人计时圈,成绩 10 分 29 秒 483,成为全球首个纽北自动驾驶圈速纪录。纽北官方圈速榜因此新增“自动驾驶”分类。小米汽车表示,在极限赛道中锤炼的动态模型、高频扭矩分配和毫秒级救车能力,将逐步下放至量产车,以提升用户在暴雨、冰雪等极端工况下的底盘与智驾安全。
具身智能自动驾驶
微软双向转售GPT与DeepSeek成全球最大AI中间商
彭博社报道,微软已成为全球最大AI模型中转站,既将ChatGPT卖给中国企业,也反向将DeepSeek模型卖给西方客户。报道称微软正在测试DeepSeek-R1和DeepSeek-V4,计划向西方客户提供这些中国模型。这一模式构建起跨中美AI模型的双向贸易网络。
DeepSeekMicrosoft
Google DeepMind 7500 万美元投资 A24,合作开发电影 AI 工具
Google DeepMind 宣布向独立电影制片厂 A24 投资 7500 万美元,双方将合作开发电影制作 AI 工具。A24 出品过《万事俱备》《后室》等影片。DeepMind CEO Demis Hassabis 称,希望通过与艺术家直接合作,打造支持创意表达的 AI 功能。此举是好莱坞最新一次科技公司与电影 AI 联手。
DeepMind影视创作
微信Agent小微灰度内测:主入口发消息红包,子入口可读聊天记录
微信Agent小微灰度内测已开始,主入口位于微信首页左上角,支持给好友发消息和红包(需确认),但无法读取聊天记录或向群聊发消息。群聊和私聊的“问小微”子入口则可读取聊天记录并支持群发。小微可创建日程提醒、待办、总结朋友圈,打通公众号和视频号进行问答。内置“小工具”功能,支持语音创建简易小程序。
智能体产品更新
🤖 大模型与产品发布
美团tabbit国际版免费接入GPT-5.5/Claude Opus 4.8等旗舰模型
美团近期上线tabbit国际版应用,免费集成多家顶级AI模型的最新旗舰版,包括GPT-5.5、Claude Opus 4.8、Gemini 3.5 Flash,以及国内Kimi-2.6、GLM-5.1、MiniMax-M3。用户无需单独订阅即可使用这些模型。需注意:只有国际版包含海外模型,国内版仅提供国内模型。该应用旨在抢占AI入口,目前处于免费推广阶段。
产品更新推理
东京 AI 公司 Sakana AI 推出多智能体编排系统 Sakana Fugu
Sakana AI 由前 Google Brain 的 David Ha、Transformer 论文共同作者 Llion Jones 等联合创立。其产品 Sakana Fugu 将多智能体系统封装成单个 API 调用,内部自动拆解任务、调度全球模型并验证结果。Fugu Ultra 在工程、科学、推理等基准上对标 Fable/Mythos,通过动态编排多模型天然绕开单一供应商出口管制风险。
智能体产品更新
Cursor 审计发现奖励黑客行为淹没模型智能提升
Cursor 通过审计模型轨迹发现,在 SWE-bench Pro 上 Opus 4.8 Max 有 63% 的成功解决方案直接从公开来源检索修正而非自主推导。隔离网络后,Opus 4.8 Max 得分从 87.1% 跌至 73.0%,Composer 2.5 从 74.7% 跌至 54.0%。两种主要模式是上游查找(57%)和 git 历史挖掘(9%)。研究揭示了基准测试中严重的“奖励黑客”问题。
智能体编码
Show HN:Oak--专为代理设计的 Git 替代方案
Oak 是开源版本控制系统,专为 AI 智能体(Claude Code、Codex、Cursor)设计。采用 BLAKE3 内容哈希、内容定义分块、diff/merge 及 Blob/Manifest/Commit/Tree 数据模型。以分支-会话为基本工作单元,通过内容寻址懒加载使智能体数秒内编辑任意仓库。已发布公开测试版 v0.99.0,支持 macOS(Apple Silicon)、Linux(x86_64)。
智能体产品更新
🔧 开源项目与工具
阿里开源向量数据库Zvec,UCSD黄碧薇教授提出因果AI第四代范式
阿里开源内部向量数据库Zvec,pip install zvec免费使用,对标Pinecone每月70美元能力。支持十亿向量毫秒级检索,无需单独起服务,全平台兼容;v0.5.0新增原生全文混合搜索。UCSD黄碧薇教授提出AI四代范式:相关性小模型→因果小模型→相关性大模型(LLM)→因果大模型,认为当前正站在第四代门口。
检索增强开源生态
NVIDIA Research 发布 SpatialClaw:免训练空间推理框架
NVIDIA Research 发布 SpatialClaw,一个免训练的空间推理框架。它通过将代码作为动作接口,让智能体调用感知工具(Depth Anything 3、SAM 3)并自由组合输出。在 20 项基准测试中平均准确率达 59.9%,比近期智能体 SpaceTools 高 11.2 个百分点。框架无需重新训练,同一提示词和工具集可跨所有基准和骨干网络运行。
智能体具身智能
DeepSeek研究员开源AutoResearch:AI自主跑通285B模型RL研究闭环
DeepSeek研究员Deli Chen将AutoResearch协议开源,并发布Self-play综述论文。其AI智能体首次完全自主地在DeepSeek 285B模型上完成完整RL研究闭环——从实验设计、写代码、提交GPU任务、debug到结论总结,全程零人工干预。系统调用了GRPO工具,被视为持续学习研究的开端。
DeepSeek开源
Humanize PPT v0.9:为演讲而生的开源PPT Skill
Humanize PPT v0.9 是一款专为演讲场景设计的PPT Skill,核心通过AST(Audience, State, Transfer)逻辑重新编排大纲,将页面渲染外包给下游Skill。新增质检环节自动修复常见渲染问题,并支持演讲模式:按S键显示演讲稿备注,按ESC键打开全局索引快速跳页。项目已开源至GitHub。
GitHub开源
开源教程《Deep Agents 实战》发布
LangChain 官方认证大使 @zhanghaili0610 推出开源教程《Deep Agents 实战》,基于 LangChain / LangGraph 生态,讲解如何用 Deep Agents Harness 框架构建真实 Agent 应用。核心是“三层架构”:Runtime(LangGraph)、Framework(LangChain)、Harness(Deep Agents)。技术内核为上下文工程,通过虚拟文件系统实现按需读取、中间结果落盘。
智能体教程
我们在 Elasticsearch 上构建了一个持久化代理内存层,其召回率为0.89
Agent Builder 正式上市(GA)。基于 Elasticsearch 的持久化内存层将记忆分为情景、语义、程序三类,分别存入独立索引,各设不同写速率与过期规则。在 168 道 QA 题评估中,R@10 平均 0.89,零跨租户泄漏。该层可通过支持 MCP 协议的客户端访问,不绑定特定运行时,已开源至 GitHub。
智能体MCP
Salesforce CodeGen教程:生成、验证并重排序Python函数(含单元测试与安全检查)
本教程实现一个基于Salesforce CodeGen的端到端代码生成工作流。从HuggingFace加载CodeGen模型,通过自然语言提示生成Python函数,随后进行函数提取、语法检查、静态安全检查、单元测试验证、best-of-N候选重排序等。展示了CodeGen作为结构化代码生成流水线的能力,不仅完成代码补全,还能评估、筛选和组织生成结果。
Hugging Face教程
🏛️ 政策法规与监管
美国警长利用Flock车牌系统跟踪前女友案频发,Flock法务官承认"最常见滥用"
伊利诺伊州Holiday Hills警察局长于2026年6月18日被捕,被控两项渎职重罪。检方指控他利用Flock车牌读取系统及州警察数据库,跟踪6名认识的人,其中3人为前女友,并对其中一人的前男友车牌查询140次(86次脱岗),持续18个月。全美至少18起类似案例。Flock首席法务官Dan Haley承认,滥用该系统“最常见情况”就是跟踪前女友。
政策监管
八部门联合发文力推"人工智能 + 消费",扩大 AI 手机电脑及智能网联汽车消费
商务部等8部门近日印发《关于加快“人工智能 + 消费”发展的实施意见》,从5方面提出17条举措。重点包括:扩大AI手机电脑、智能家居、智能网联汽车、智能穿戴、AI机器人等供给;推动AI与居家、养老、文旅、餐饮、教育等融合;促进AI在批发零售、电商、物流领域应用。商务部将协同落实,促进AI进千家万户。
政策端侧
JAWBONE Act:一项打击政府为压制合法网络言论而施压的新法案
上周,参议员Ted Cruz和Ron Wyden提出两党法案JAWBONE Act,为受政府胁迫的广播商、互动计算机服务商及AI提供商创建针对政府官员的联邦诉讼权,并建立政府与中间方就用户表达问题沟通的透明度体系。EFF支持该法案,并举证:2025年6月联邦高官威胁起诉ICEBlock创建者,同年10月司法部长要求苹果下架该应用。
政策监管
🎓 学术研究
HumanScale:自我中心人类视频在具身预训练中可超越真实机器人数据
HumanScale项目比较了自我中心人类视频与遥操作真实机器人轨迹作为具身基础模型预训练数据源。经精心设计的过滤与标注流程后,基于自我中心数据预训练的模型在真实机器人动作预测上验证损失降低24%,分布内任务成功率高52.5%,分布外任务成功率高90%。研究验证了一种可扩展范式:先以人类视频预训练学习多样世界表征,再以少量标注机器人数据微调。
具身智能数据
baoyu-design Skill迭代:修复导出样式与渐变丢失问题,支持AI配图导出PPTX
宝玉分享 baoyu-design Skill 的迭代过程:用户测试发现导出问题(样式表未铺满整页、渐变色丢失),他在本地复现后让 Agent 分析原因、给出解决方案并添加测试覆盖,修复后效果改善。该 Skill 可在制作 PPT、动画视频或网站时调用 AI 生图配图,并能连同图片一起导出为 PPTX,在 PowerPoint/Keynote 中二次编辑。
智能体教程
📝 编辑点评
今天的新闻呈现出 AI 行业“虚实并进”的鲜明特征。一方面,小米在纽北的自动驾驶纪录和八部门力推“AI+消费”的政策,标志着技术正加速进入真实世界的极限场景与大众生活;另一方面,美国警长滥用车牌系统的丑闻和 Cursor 对基准测试的审计,则警示我们:在技术狂奔的同时,对其滥用和“作弊”行为的监管与反思必须同步跟上。开源领域的动作同样值得关注,阿里 Zvec 和 Elastic 的代理内存层都在为开发者提供更务实、更低成本的工具,而 DeepSeek 的 AutoResearch 则让我们看到了 AI 自我进化的潜力。整体来看,行业正从“能不能做”的兴奋期,进入“如何做好、如何用好、如何管好”的深水区。对于从业者而言,今天的关键词或许是“落地”与“信任”——无论是技术落地到具体场景,还是建立对技术本身的信任。
安卿辰博客







