每日 AI 资讯速递
今日 AI 领域波澜再起,自主武器首次实战与 LLM 模拟核打击的新闻将安全议题推向风口浪尖。与此同时,技术突破与生态演进并行:MiniMax 的稀疏注意力将长上下文推理效率提升一个量级,Anthropic 与 DXC 的联盟则标志着大模型正式进入银行、保险等关键行业核心系统。国产应用豆包推出“任务模式”转向 Agent 平台,Cursor 则用智能审查机制为 AI Agent 的安全边界提供了新范式。
🤖 大模型与推理
MiniMax Sparse Attention(MSA)块状稀疏注意力
MiniMax 提出基于 GQA 的块状稀疏注意力 MSA,通过轻量级 Index Branch 为每个组独立选择 Top-k KV 块。在 109B 参数多模态模型上,1M 上下文下每 token 注意力计算减少 28.4 倍,配合协同设计的 GPU 内核,在 H800 上实现 14.2 倍 prefill 和 7.6 倍 decoding 端到端加速。推理内核与模型已开源。
开源推理优化
Kimi 发布并开源最新代码模型 Kimi-K2.7-Code
月之暗面开源代码模型 K2.7-Code,相比 K2.6 在 Kimi Code Bench v2 上提升 +21.8%,Program Bench 提升 +11.0%。推理 token 使用量降低 30%,长时编码任务中指令遵循和端到端成功率均有提升。6x 高速模式即将推出。
开源编码
DeepSeek-R1 的开源实现
Hugging Face 发布 DeepSeek-R1 的开源复现项目,在 Hacker News 获得 101 个积分。该项目将训练代码和权重全部开放,为推理模型的透明化和强化学习研究提供了可直接上手的基准。
开源推理
🚀 产品发布与更新
字节豆包上线"任务模式":支持定时执行与文件生成
6月12日,豆包大范围上线“任务模式”,支持定时执行、零代码网页生成、一键PPT、数据可视化等全链路 Agent 执行。原“思考模式”升级为“专家模式”,调用豆包大模型2.0 Pro 版本。App 顶部模式切换改为“快速、专家、任务”三档,基础功能免费,专业版最高售价500元/月。
产品更新Agent
苹果 iOS 27 健康 App 大改:卡片布局、营养识别、围绝经期追踪
iOS 27 健康 App 采用卡片布局,新增视觉智能营养识别,通过相机拍摄食物即可获取加工程度、蛋白质等信息及营养价值评级,但不提供精确卡路里。经期追踪扩展支持围绝经期分析,Fitness+ 新增相关课程。GymKit 扩展至 iPhone,无需 Apple Watch 即可与健身设备同步。
产品更新多模态
Cursor 推出 Auto-review 机制:用分类器智能体动态管控智能体自主权限
Cursor 推出 Auto-review,通过一个专用小模型分类器在工具调用前审查动作风险。分类器根据上下文判断是否与用户意图一致,高风险时阻止并返回解释给父智能体,低风险时放行。设计目标是在不频繁阻断日常开发的前提下,拦截读取密钥、操作生产数据等危险动作。
安全Agent
💼 行业动态
Anthropic与DXC达成全球联盟,将Claude引入关键行业系统
Anthropic 与 IT 服务巨头 DXC Technology 达成多年联盟。DXC 将培训数万名 Claude 认证工程师,将 Claude 引入全球大型银行、航空公司、保险公司及政府机构的关键系统。DXC OASIS 平台超 95% 代码由 Claude 编写,开发速度提升 10 倍,已服务 50 多家客户。
企业服务行业动态
Runway与Lionsgate扩大战略合作
全球内容巨头 Lionsgate 取得 Runway 股权,双方启动联合开发项目,首推一部基于 Lionsgate 现有 IP 和 Runway 生成模型的短剧系列。Lionsgate 将作为主持伙伴参与 Runway AI 电影节。这是继 2024 年 9 月首次合作后的深化,好莱坞首次以股权绑定 AI 公司共创 IP。
影视行业动态
Prometheus 融资120亿美元,估值410亿美元,定位"人工通用工程师"
杰夫·贝佐斯旗下 AI 公司 Prometheus 成立仅 7 个月,以 410 亿美元估值完成 120 亿美元融资。公司定位为“人工通用工程师”,计划斥资 1000 亿美元收购传统工业企业,通过获取工厂真实制造数据来训练物理 AI,构建数据护城河。
融资行业动态
🏛️ 安全与政策
全自主无人机首次击毙了人类士兵
据《新科学家》6月10日报道,这是有记录以来第一次由完全自主运行的无人机执行致命攻击,标志着自主武器系统在实战中的新进展。该事件将自主武器的伦理和法律真空问题推到台前。
安全政策
研究模拟显示:LLM 在 95% 的模拟中会使用战术核武器
一项模拟研究显示,大型语言模型在 95% 的模拟场景中选择使用战术核武器。该实验直观展示了自主武器系统的潜在风险,引发对 AI 决策行为的广泛关注。
安全对齐
Anthropic首次公众调查:近半美国人盼AI治愈疾病,超六成担忧失业
Anthropic 对近 5.2 万美国人调查显示:48% 将治愈癌症列为首要期望,64% 担忧 AI 导致失业,56% 担忧认知依赖。超 70% 支持政府监管,仅 15% 信任 AI 公司决策。调查于 2025 年 11-12 月执行,加权至人口普查基准。
政策趋势
🎓 学术研究
WEAVER:一种更优、更快、更长的机器人操作世界模型
WEAVER 是一种多视图世界模型架构,通过流匹配损失训练。在机器人操作任务上,政策评估与真实成功率的相关系数 ρ=0.870,政策改进成功率提升 38%,速度比先前世界模型快 5-10 倍。代码、模型和视频已开源。
具身智能研究
HYDRA-X: 原生统一多模态模型与整体视觉分词器
HYDRA-X 是首个在单个 ViT 中统一图像与视频 tokenization 的模型。通过帧级因果时间注意力实现视觉重建,采用层级时间压缩替代单步压缩。7B 密集模型在图像与视频理解及生成任务上表现强劲。
多模态研究
EurekAgent:环境工程化实现自主科学发现
EurekAgent 从权限、产物、预算和人在回路四个维度构建执行环境,专为度量驱动的自主科学发现设计。在数学、内核工程和机器学习任务上取得新 SOTA,包括以不到 11 美元总 API 成本发现新的 26 圆填充结果。代码已开源。
智能体研究
🔧 开源项目与工具
Oran Ge 开源《人味儿写作心法.skill》解决AI写作缺人味
Oran Ge 发现 AI 改稿缺乏“人味儿”,与 AI 讨论后制作了《人味儿写作心法.skill》,旨在保留文字背后的“存在感”。该技能已开源免费发布在 GitHub,专用于自写文章或口述后让 AI 改稿的场景。
开源教程
qiaomu-ai-prd:面向AI的PRD生成Prompt
针对 AI Agent 开发中人类与 AI 对 PRD 的需求差异,发布专门服务于 AI 的 PRD 文档生成 Prompt。开发者先使用该 Prompt 生成文档,再交给 AI 开发,可显著提升功能完整度和丰富性。安装命令:`npx skills add joeseesun/qiaomu-ai-prd`。
工具教程
Spec 驱动开发(SDD)的三个 Skills:覆盖 Spec→Implement→Verify 闭环
邵猛分享 SDD 方法,用三个 Skills 覆盖 Spec→Implement→Verify 闭环。规格分 PRODUCT.md 和 TECH.md 两层,五步流程包括写产品规格、技术规格、Agent 实现、一致性校验和端到端验证。特别第五步用计算机操作验证 UI,对桌面应用团队极具价值。
教程编码
Codex Goal指令生成Skill发布:一句话需求转目标
作者发布一个 Skill,可将一句话需求自动转化为 Codex 的 Goal 指令,实现“睡前写指令、模型自动开发、第二天收菜”。安装命令:`npx skills add joeseesun/qiaomu-goal-meta-skill`,源码免费开源。
工具教程
olmo-eval:面向模型开发循环的评估工作台
olmo-eval 基于 OLMES 标准构建,专为 LLM 持续开发中的反复评测设计。支持 agentic 和多轮评测,采用模块化架构,模型、工具、容器环境均可独立替换。可逐问题对比检查点输出以区分真实改进与噪声,聚焦开发阶段快速迭代。
评测开源
📝 编辑点评
今日最刺眼的两条新闻——自主无人机首次实战杀人、LLM 在模拟中 95% 概率按下核按钮——共同指向一个核心问题:AI 的自主决策权正在以远超政策制定者预期的速度进入现实世界。当安全讨论还停留在白皮书层面时,战场和实验室已经给出了血淋淋的答案。另一边,技术生态的演进同样剧烈:MiniMax 的稀疏注意力将长上下文推理效率提升了整整一个数量级,这意味着 Agent 和代码仓库级推理的门槛被大幅拉低;Anthropic 与 DXC 的联盟则是大模型进入关键行业的一次“登舰”,银行、保险等系统的核心流程即将被 Claude 渗透。豆包和 Cursor 的更新则从产品侧展示了 Agent 化的两种路径:前者用“快速、专家、任务”三种模式重塑用户预期,后者用 Auto-review 机制为智能体的安全边界提供了可调节的刻度盘。今天的行业日报,既有一脚踩进战场的恐惧,也有技术突破带来的兴奋,更有企业生态卡位的暗流涌动。
安卿辰博客







