每日 AI 资讯速递
今日AI行业迎来多项突破性进展:生数科技发布实时交互视频模型Vidu S1,阿里达摩院推出超导材料发现AI智能体,面壁智能则用AI全自动编写训练框架追平业界标杆。与此同时,全球首例AI Agent勒索攻击曝光,国家网信办新设“智能信息服务”专章规范AI服务,安全与监管议题再次成为焦点。
🚀 产品发布
生数科技发布 Vidu S1,推动视频生成迈向"实时交互"新时代
7月3日,生数科技发布Vidu S1实时交互模型,支持实时视频通话和语音控制视频走向,实现无限时长连续互动。模型在540P分辨率下实现25FPS(最高42FPS)实时生成,采用自回归扩散路线和TurboDiffusion技术降低计算成本,一张图片即可创建角色并自定义音色,已开启内测。
视频生成实时交互
JoyAI App 上线 UGC 数字人功能,用户可"捏"出专属虚拟玩伴
JoyAI App上线UGC数字人功能,用户上传一张照片即可生成虚拟数字分身,支持写实或卡通风格复刻,搭配用户语音实现全双工对话。该功能集成语言、语音、数字人大模型,支持随时打断和自然接话,兼具情绪陪伴与生活服务能力,如点外卖、金融咨询、学英语等。
数字人UGC
Wan Video 推出"音乐伴舞"新功能
阿里云Wan Video推出音乐伴舞功能,用户上传一个角色并添加一首歌曲,即可生成与节奏同步的舞蹈视频。支持街舞、踢踏舞、拉丁舞、K-Pop和中国古典舞等多种舞种,实现从节拍至动作的自动匹配。
视频生成音乐
💼 行业动态
Fable 的判断力:Simon Willison 从 Claude Code 团队获得的效率技巧
Simon Willison建议让Fable(以及Opus)用自己的判断力工作,而非硬性规定行为。Jesse Vincent的技巧是告诉Fable将较小任务委托给较低功耗模型(Sonnet用于实现、Haiku用于机械修改),主循环保留判断和审计任务,以应对价格即将上涨并节省token。
AI编程效率
《Fable》通关指南:短绳AI编程法
专业开发者总结出“短绳方法”:开发者全程参与,先规划分解任务,从不使用YOLO模式,每次变更前审查差异,每个子任务后提交以防止AI误操作。最终需人工与AI双重PR审查,即便不用前沿模型,此法也能产出超越Fable 5的代码质量。
AI编程最佳实践
Claude Fable 5 自主优化 AIHOT 网站 SEO/GEO 全记录
作者用Claude Fable 5优化AIHOT网站SEO与GEO,模型自主启动22个Agent调研40分钟,发现豆包App每天六千多次访问未被统计等异常。规划境外加速时,模型自行找到工单入口提交专业工单,22分钟开通,并礼貌追问工程师漏答问题,展现了高度的自主性和问题解决能力。
SEOAgent
得州特斯拉致命车祸:司机嫌FSD太保守,加速踏板踩死致76岁居民死亡
44岁的迈克尔·巴特勒驾驶特斯拉Model 3冲入住宅致76岁居民死亡,警方从其手机发现多次搜索“FSD不够激进”等记录。特斯拉AI负责人称驾驶员将加速踏板踩到底(100%),手动操作覆盖了FSD,车辆数据显示约6秒内加速踏板完全踩下,时速升至117公里,制动踏板始终未踩。
自动驾驶安全
扎克伯格称AI智能体开发速度未如预期
Meta CEO扎克伯格在内部会议上表示AI智能体开发速度未加速,今年Meta裁减约8000名员工并将7000人调至AI团队。扎克伯格称裁员不够“干净”,并指出以AI为中心的新公司结构预期的好处尚未实现,但相信未来三到六个月将开始看到改善。Meta今年预计在AI基础设施上投入高达1450亿美元。
MetaAI战略
Microsoft 成立"Frontier Company",斥资 25 亿美元派驻 6000 名 AI 工程师到企业客户现场
Microsoft新设业务部门“Frontier Company”,拨款25亿美元,将6000名行业与工程专家派驻企业客户现场共同设计、部署AI系统。该部门由Rodrigo Kede Lima领导,旨在超越“前部署工程”模式,成为最大、以结果为导向的工程组织,并借助埃森哲、凯捷等系统集成商扩大覆盖。
企业AI部署
⚡ 安全与监管
全球首例 AI Agent 勒索攻击曝光,从漏洞利用到数据库加密全程自主完成
安全厂商Sysdig首次记录到AI Agent“JADEPUFFER”自动完成的勒索攻击。攻击利用Langflow服务漏洞CVE-2025-3248远程执行Python代码,自主收集OpenAI、Anthropic、DeepSeek等API密钥及阿里云、腾讯云、AWS等云平台凭证,横向移动到MySQL和Nacos服务器,全程无人类干预。
安全勒索攻击
国家网信办就《互联网信息服务管理办法》再次征求意见,首设"智能信息服务"专章规范AI服务
7月3日,国家网信办发布修订草案征求意见稿,新增“智能信息服务”专章,要求AI服务提供者公示技术基本原理、训练数据来源,对生成合成内容进行标识,禁止强制用户使用智能服务或利用算法扰乱网络舆论。草案还要求平台建立网络暴力信息特征库,意见反馈截止8月2日。
政策法规AI监管
🎓 学术研究
阿里达摩院发布超导材料发现AI智能体Elements Claw
7月3日,阿里达摩院联合中国人民大学、中国科学院大学发布超导材料发现AI智能体Elements Claw。该智能体基于1.25亿分子/晶体结构预训练的1B参数原子基础模型,判断超导性AUC达0.996,预测临界温度平均误差小于1K。AI仅用28个GPU小时筛选240万晶体结构,预测出6.8万个候选材料,其中4种已合成并验证超导性,最高临界温度6.5K。
AI for Science超导材料
面壁智能发布AI全自动预训练框架ForgeTrain,8小时追平Megatron-LM
面壁智能发布全球首个完全由AI编写、无人类干预的生产级大模型预训练框架ForgeTrain。该框架在8小时内追平Megatron-LM,1.5至2天内稳定反超,模型FLOPS利用率提升约8%~10%,且可迁移至不同模型和硬件。其采用四阶段Harness优化流程,全程自动判定,工程思想概括为Forge Engineering。
预训练AI自动编程
🔧 开源项目
pxpipe:通过图像化压缩输入token降低Claude Code成本
pxpipe是一个本地代理,将系统提示、工具文档和历史记录等密集文本渲染为PNG图像,利用图像token成本取决于像素尺寸的特性压缩输入token。在Fable 5模型上,约25k文本token压缩为约2.7k图像token,端到端账单降低59-70%。SWE-bench Lite 10个实例全部通过,成本从$54降至$27。
开源成本优化
claude-real-video是一个开源工具,让大语言模型基于视频画面而非字幕进行理解。它通过场景变化检测提取关键帧、滑动窗口去重并转录音频,生成干净的本地文件夹供模型读取。支持YouTube链接或本地文件,全部处理在本地完成,不上传云端。
开源视频理解
面向 Web 开发者的 Safari MCP 服务器
Safari Technology Preview 247推出Safari MCP服务器,基于Model Context Protocol,允许任何MCP兼容客户端连接Safari浏览器窗口。智能体可获取DOM、网络请求、截图、控制台输出等信息,内置browser_console_messages、screenshot、evaluate_javascript等工具,可自主完成调试、性能分析等任务。
Web开发MCP
阿里巴巴发布 Page Agent:开源 JavaScript 库实现网页 DOM 自然语言操控
阿里巴巴发布Page Agent,一个开源的JavaScript客户端库,嵌入网页后可通过自然语言指令直接操作DOM元素。与Playwright等外部工具不同,Page Agent将实时DOM脱水压缩为FlatDomTree文本映射,让纯文本模型精准执行点击、表单填写等操作,继承用户cookies和会话,无需独立后端。
开源DOM操控
Fable 5 仅 4.44 美元搭建 Rube Goldberg 机器
OpenRouter展示用Fable 5构建的鲁布·戈德堡机械,成本仅需4.44美元。这一演示展示了前沿模型在复杂创意任务中的低成本高效益能力,提示词已在Reddit公开。
创意低成本
关于Mythos和网络安全的讨论并非炒作
关于Mythos和网络安全的讨论并非炒作。正如任何使用Fable进行自主工作的人可能已经认识到的那样,这一评论反映了AI Agent在自主操作中带来的实际安全挑战。
安全Mythos
📝 编辑点评
今日热点呈现出AI行业的两大鲜明趋势:一是AI Agent正从“辅助工具”向“自主执行者”快速演进,从自动编写训练框架到自主完成SEO优化,再到全球首例完全自主的勒索攻击,Agent的能力边界和风险边界同步扩展。二是监管与安全议题迅速升温,国家网信办新设“智能信息服务”专章,特斯拉FSD致命事故引发对AI自主决策边界的深思。在技术层面,视频生成领域迎来实时交互里程碑,AI for Science在超导材料发现上取得实质性突破,而成本优化(如pxpipe)和效率技巧(如短绳法)则表明行业正在从“能用”向“用好”过渡。值得关注的是,扎克伯格的坦诚表态揭示了即便是行业巨头,在AI智能体落地速度上也面临预期与现实的差距,这提醒我们:AI的“工业革命”效应可能需要更长的时间窗口才能全面显现。
安卿辰博客







