AI 日报

每日 AI 资讯速递

2026年06月24日星期三

今日AI领域迎来多模态与效率的双重爆发：字节跳动连续发布Seed2.1智能体模型和豆包音频生成模型1.0，Runway推出Seedance 4K视频生成模型，网易有道开源14语种语音克隆模型。与此同时，AI伦理与安全议题持续升温，一项涉及340万份申请的大规模研究揭示AI招聘工具存在系统性种族偏见，五眼联盟联合警告AI驱动的网络威胁将在数月内影响普通用户。

🚀 产品发布

Runway推出Seedance 4K等三款新模型

Runway发布Seedance 4K、Seedance Mini及Kling 3.0 Turbo三款模型，号称“全球最佳模型汇聚一处”。新模型支持4K分辨率视频生成，使用优惠码30RUNWAY可享前三个月七折优惠。

📰 X/Twitter
视频生成4K

Mistral OCR 4发布：支持170种语言与全自托管部署

Mistral AI发布OCR 4，新增边界框、块分类及逐页逐词置信度分数。该模型支持170种语言、10个语系，可单容器全自托管部署，在OlmOCRBench上得分85.20，独立标注者偏好率平均72%。定价每1000页4美元，Batch API享50%折扣。

📰 Mistral AI
OCR多语言

豆包音频生成模型1.0发布，重新定义AI音频创作

火山引擎发布豆包音频生成模型1.0，支持文本与音频参考端到端生成，单条Prompt可编排多角色对白、情绪语气及背景音乐。模型实现音色与风格解耦控制，一次支持2分钟音频创作，多次延长保持音色统一，已开启火山方舟API邀测。

📰 火山引擎
音频生成多模态

Seed2.1正式发布，深入AI生产力场景

字节Seed发布Seed2.1系列，面向真实生产力场景的智能体，强化通用Agent能力与多模态理解。Seed2.1 Pro在GDPval基准获最高分，Agents' Last Exam位列第一梯队；MobileWorld手机GUI任务最高分，开发者评测相比Claude Opus 4.6获59.1%胜率。

📰 字节跳动
智能体多模态

FastWan-QAD：单卡5090上1.8秒生成5秒视频

Sky Computing Lab发布FastWan-QAD视频生成模型，基于量化感知蒸馏方案训练。在单张NVIDIA GeForce RTX 5090上，端到端生成5秒480P视频仅需1.8秒，模型、代码及博客已开源。

📰 X/Twitter
视频生成开源

💼 行业动态

Oracle因AI应用裁员21000人，债务驱动云基础设施投资

Oracle在截至5月31日的财年裁员21000人，员工总数降幅12.9%，重组成本达18亿美元同比增长481%。公司计划2026年通过债务和股权筹集450至500亿美元扩建Oracle Cloud Infrastructure，服务OpenAI、xAI等客户，当前公司债务超1200亿美元。

📰 行业资讯
裁员云基础设施

Anthropic推出Claude Tag：在Slack中通过@Claude协作

Anthropic推出Claude Tag，一种在Slack频道中通过@Claude委托任务的新协作方式。Claude可记住频道上下文，支持多用户交互，开启“环境”行为后可主动更新未解决线程。即日起面向Claude Enterprise和Team客户提供beta版，管理员可精细控制工具访问权限和token消耗限额。

📰 Anthropic
协作工具Slack

国内首个高考志愿AI测评出炉，千问多项表现超过资深咨询师

友松实验室发布国内首个高考志愿AI能力测评报告，测试千问高考志愿填报Agent四大模块。与53位平均从业4.6年的人类咨询师对照，千问44道事实题全对，模拟10个志愿中6个可录取，100场匿名对比中专家58次倾向千问回答。使用千问辅助后，人类咨询师正确率提升，耗时减少约27%。

📰 友松实验室
教育智能体

🔧 开源项目

IBM开源CUGA：轻量级智能体框架，提供二十余个单文件示例应用

IBM开源CUGA（Configurable Generalist Agent），一个处理规划、执行循环、工具调用的轻量级智能体框架。内置计划-执行-反思循环，在AppWorld和WebArena基准上排名第一，支持Fast/Balanced/Accurate三种推理模式，代码执行可在本地、Docker或E2B沙箱中运行。

📰 IBM
智能体框架开源

网易有道发布Confucius4-TTS：14语种跨语种无口音语音克隆开源模型

网易有道推出“子曰4.0”TTS引擎Confucius4-TTS，声称是业内首个支持14种语言跨语种无口音、无需参考文本即可完成语音克隆的开源模型。用户仅需3秒音频即可实现零样本音色克隆，克隆音色与原声相似度超85%，任务准确度达97%，已全量开源（Apache协议）。

📰 网易有道
语音克隆开源

京东全栈开源JoyAI-VL-Interaction，从“一问一答”走向“边看边说”

京东开源全球首个全栈交互模型JoyAI-VL-Interaction，获vLLM-Omni原生支持。模型能持续观察视频流、主动判断关键事件并实时响应，在58个真人盲评中对比豆包视频通话助手胜率77.6%，对比Gemini胜率87.9%。开源内容包括模型权重、交互数据集、训练方案及完整可部署系统。

📰 京东
交互模型视频理解

🔒 下载链接仅对登录用户可见，请登录或注册后查看。

Unlimited OCR是一个托管在GitHub的开源项目，实现单次长时域解析（One-Shot Long-Horizon Parsing），旨在一次性处理长时间跨度的OCR任务，为文档数字化提供高效解决方案。

📰 GitHub
OCR开源

📋 政策法规

GitHub联合开源联盟呼吁修改加州AI透明度法案以保护开源

GitHub联合Black Forest Labs、Hugging Face与Mozilla Corporation组成开源联盟，呼吁对加州AI透明度法案进行针对性修改。当前草案要求开发者在下游用户未履行义务时撤销开源许可证，这与开源许可证永久不可撤销的性质冲突。联盟建议参考欧盟AI法案的透明度实践规范替代撤销条款。

📰 GitHub
开源监管

五眼联盟警告：AI网络威胁数月内将影响普通用户

五眼联盟网络安全部门联合警告，即将到来的AI模型将降低编写复杂攻击代码的门槛。自动化智能体可全天候扫描互联网漏洞，AI驱动的超个性化钓鱼诈骗已在亚太蔓延，印度2026年初勒索软件事件激增165%。五眼联盟建议企业部署自动化防御AI，个人用户开启多因素认证。

📰 五眼联盟
网络安全AI威胁

🎓 学术研究

大规模研究揭示AI招聘工具存在种族偏见：黑人26%、亚裔15%遭系统排斥

一项覆盖340万人、400万份申请、150家雇主的大规模实地研究发现，AI招聘筛选工具存在显著种族歧视：26%的黑人申请者和15%的亚裔申请者遭遇算法系统性排斥。多数雇主依赖同一第三方供应商算法形成“算法单一文化”，导致10%提交4份申请者被所有职位拒绝。研究呼吁对算法招聘进行独立监管。

📰 学术研究
算法偏见招聘

苹果研究：九位LLM评委实际仅提供约两个独立投票的信息量

苹果机器学习研究团队发现，LLM-as-a-judge面板因模型间高度相关而严重受限。对7个模型家族的9个前沿大语言模型测试表明，9位评委实际仅提供约2个独立投票的信息量，面板准确率比独立投票理想值低8-22个百分点。增加评委数量或改进聚合算法收效甚微，瓶颈在于评委间的相关性。

📰 苹果
LLM评估模型相关性

⚡ 技术前沿

Krea 2技术报告正式发布

Krea AI正式发布Krea 2技术报告，深入解析创建Krea 2所用的数据、架构及训练技巧。该报告为AI图像生成领域提供了重要的技术参考。

📰 Krea AI
技术报告图像生成

huggingface_hub实现每周发布：AI、开源工具、人工审核闭环

Hugging Face将huggingface_hub发布周期从每4-6周缩短至每周，全部由单个GitHub Actions工作流自动完成。流程依赖开源工具和开权重模型起草发布说明，但保留人类最终审核环节的决定权，所有组件均基于开源生态构建。

📰 Hugging Face
DevOps自动化

Transformers.js实验跨源存储API以解决浏览器AI模型冗余下载

Transformers.js在浏览器中运行AI模型时，不同来源的Web应用会重复下载并缓存相同的模型资源，单次demo就产生177 MB冗余下载和存储。Cross-Origin Storage API是一项早期提案，旨在解决因浏览器Network Isolation Key导致的缓存隔离问题。

📰 Transformers.js
浏览器AI缓存优化

🌐 社会影响

美国警长利用Flock车牌系统跟踪前女友案频发

伊利诺伊州一名警察局长被捕，被控利用Flock车牌读取系统跟踪6名认识的人，其中3人为前女友。全美至少18起类似案例，Flock首席法务官承认滥用该系统“最常见情况”就是跟踪前女友。该事件引发对AI监控技术被滥用的广泛担忧。

📰 行业资讯
隐私监控滥用

📝 编辑点评

今日热点清晰地勾勒出AI行业的两条主线：一是技术能力的快速迭代，字节、Runway、网易有道等企业在多模态生成和效率优化上不断突破，视频生成进入秒级时代，语音克隆走向开源无门槛；二是AI伦理与安全议题的紧迫性日益凸显，从招聘算法的系统性偏见到五眼联盟的网络安全警告，再到监控技术的滥用，技术落地的“副作用”正在从学术讨论走向公共治理。值得注意的是，苹果研究揭示的“LLM评委相关性瓶颈”提醒我们，当前AI评估体系本身也存在方法论缺陷。开源生态方面，IBM、京东等企业的积极贡献正在降低AI应用门槛，但加州AI法案的争议也表明，如何在透明度和开源精神之间取得平衡，将是未来政策博弈的关键。行业从业者需要同时关注技术的前沿突破和伦理的底线约束。

📊 数据来源：

⚠️ 免责声明：内容整理自公开来源，仅供参考。