News

2026-04-09 AI 日报

上期追踪问题回应

1. Meta 的“半封闭”策略转向是否会引发开源社区大规模反弹？ 中国区 24 小时内没有直接对应的开源阵营反制，但阿里电商围绕 Token 重构、京东与美团限制外部模型接入，说明国内竞争重点也在从“开放能力展示”转向“平台内沉淀与商业化闭环”。

2. 4 月 27 日 Musk v. OpenAI 庭审后，三大厂治理叙事将如何演变？ 中国区今天没有新增能实质改写该判断的硬信息。相比海外治理争议，国内大厂更明显地把精力放在模型内化、企业控制权和场景落地上。

3. Q1 3000 亿美元 AI 风投是否可持续，哪些赛道会先承压？ 今天中国最有信息量的资金流向不是再押注通用聊天，而是继续流向具身智能与机器人基础平台。地瓜机器人新增 1.5 亿美元、理想首次直接下注具身创业公司，都说明资本正在往“硬件+场景+系统”迁移。

🇨🇳 中国区

CN-1. ⭐ 智谱 GLM-5.1 Day0 上线华为云，昇腾推理吞吐提升 30%

**概述：**4 月 8 日，智谱正式发布旗舰模型 GLM-5.1 后，当天即上线华为云，并接入华为云多款产品。量子位披露，华为云围绕昇腾算力做了系统级优化，整体推理吞吐提升 30%，企业可直接通过 MaaS 平台调用 API，也可在 ModelArts 上一键部署。

**技术/产业意义：**这不是普通“上云”新闻，而是中国开源旗舰模型与国产算力栈的深度捆绑。GLM-5.1 在 SWE-bench Pro 刷新成绩后立即完成华为云商用接入，说明国产模型不再只比 benchmark，而是在快速进入国产云与企业交付链路。

深度分析：

GLM-5.1 被定位为当前全球最强开源模型之一，核心卖点是 Coding 和长程任务能力。
华为云披露其在昇腾侧实现了 Layer 级 MoE 均衡和 Attention 算子协同优化，这意味着国产算力适配正在从“能跑”转向“跑得更均衡、更稳定”。
对企业客户来说，真正关键的不是模型首发，而是能否立刻进入调用、部署、扩容和稳定性保障流程。Day0 上线把这个门槛直接拉低了。

评论观察：

🟢 支持：模型能力突破和主权算力商用交付同步推进，是今年中国 AI 最硬的一条主线。
🔴 质疑：30% 吞吐提升来自特定云侧优化，跨场景、跨负载的真实收益还要看开发者大规模实测。

**信源：**https://www.qbitai.com/2026/04/397942.html

**关联行动：**持续跟踪 GLM-5.1 在华为云上的价格、稳定性和真实工程任务表现。

CN-2. ⭐ 京东、美团开始限制外部 AI 接入，企业内生模型护城河进一步加深

**概述：**虎嗅 4 月 9 日报道，美团已不再推荐业务团队使用 Qwen 等外部模型，如需继续使用须上报高层审批，并优先使用自研 LongCat。京东则更进一步，在公司网络层面直接拦截员工访问豆包、通义千问、Gemini、DeepSeek、ChatGPT、Grok 等外部 AI 平台，仅保留 JoyAI 入口和特殊申请通道。

**技术/产业意义：**这反映出中国互联网大厂的 AI 战略从“多模型并用”快速转向“内部模型闭环优先”。对外部模型厂来说，最值钱的企业内部高频使用场景，正在被大厂用安全和治理名义重新收回。

深度分析：

数据安全是明面理由，但更深层逻辑是把真实员工使用流量、反馈和内部场景数据沉淀到自有模型中。
京东此前已开源 JoyAI-Image-Edit，美团也推出 LongCat-Next，这意味着限制外部模型并不是防守动作，而是为自研路线导流。
如果这一模式被更多大厂复制，国产模型竞争会从“开发者 API 排名”转向“谁能吃下企业内部场景”。

评论观察：

🟢 支持：对掌握海量商业和用户数据的大厂来说，限制第三方模型接触核心内部流量有现实合理性。
🔴 质疑：过早封闭可能削弱一线团队接触外部最强模型的机会，反而拖慢产品判断与研发节奏。

**信源：**https://www.huxiu.com/article/4849020.html

**关联行动：**观察更多中国互联网和金融企业是否跟进“外部模型白名单化”。

CN-3. ⭐ 阿里电商 AI 战略围绕 Token 重构，ATH 正在统一商业化入口

**概述：**36Kr 4 月 8 日披露，阿里中国电商事业群正在围绕 AI 重组业务方向，新财年探索重点从 AI to C 更多转向 AI to B，核心 OKR 变为商家侧 AI 工具留存率和 AI 带来的 GMV 增长。报道同时提到，阿里 CEO 吴泳铭提出新的 Alibaba Token Hub（ATH）事业群，相关业务正围绕 Token 商业化重构。

**技术/产业意义：**这条线比单次模型发布更重要。它意味着阿里正在把 AI 从“一个产品能力”上升为“一个集团级算账单位”，尝试统一 AI 基础设施、调用量和商业回报之间的关系。

深度分析：

搜推、推荐、多模态等团队被重新编排，本质是为了避免各业务线重复造 AI 轮子。
从 AI to C 转向 AI to B，说明阿里希望更快看到 AI 对商家效率和平台交易的直接回报，而不只是在消费者侧做体验增强。
如果 Token 成为内部统一核算指标，阿里未来的产品设计、定价和资源倾斜逻辑都可能围绕调用量与商业转化来重排。

评论观察：

🟢 支持：阿里最强资产是商家和交易链路，优先做 AI to B 的商业化闭环更符合其基本盘。
🔴 质疑：集团级“Token 化治理”容易让业务只盯消耗和转化，忽略长期用户体验与创新试错。

**信源：**https://eu.36kr.com/zh/p/3748018292802309

**关联行动：**跟踪 ATH 后续是否把 Qwen、淘天、广告和商家工具的能力进一步打通成统一产品栈。

CN-4. ⭐ 原力灵机发布 GEN-1 技术博客，继续押注“具身原生”路线

**概述：**量子位 4 月 8 日报道，原力灵机（Generalist）在节前 Demo 引爆关注后，正式发布 GEN-1 技术博客，公开阐述其“具身原生”路线。团队明确否定“给 VLM 加动作头”这类折中方案，也不把自己简单归类为世界模型，而是强调从零训练、面向物理 AGI 的系统设计。

**技术/产业意义：**在具身智能赛道里，这种公开路线宣言非常关键。中国团队不再只是跟进海外论文，而是在主动定义“机器人基础模型到底该怎么做”。

深度分析：

团队把当前热门的 VLA 和世界模型之争往后推了一步，直接追问目标是否真的是物理 AGI。
文章强调 GEN-1 在多个任务中成功率超过 99%，速度约为此前先进模型的 3 倍，并出现故障恢复能力，这意味着其不是单纯 demo 化包装。
如果这条“具身原生”路线成立，机器人领域的 scaling law 叙事会从“先把大模型移植过去”转向“为机器人重新定义底座”。

评论观察：

🟢 支持：愿意公开路线假设、直接挑战主流范式，本身就说明团队不只是做应用层堆料。
🔴 质疑：目前公开信息仍主要来自自述和技术博客，第三方标准化评测还不够充分。

**信源：**https://www.qbitai.com/2026/04/397951.html

**关联行动：**继续跟踪 GEN-1 是否开放更多 benchmark、真实世界任务和开发接口。

CN-5. ⭐ 地瓜机器人再获 1.5 亿美元投资，B 轮累计达 2.7 亿美元

**概述：**量子位 4 月 8 日报道，地瓜机器人新增 1.5 亿美元融资，B 轮累计融资达到 2.7 亿美元。公司同时披露 2025 年业务数据，出货量同比增长 180%，客户数增长 200%，开发者数量突破 10 万，已推出超百款机器人产品。

**技术/产业意义：**按融资额看，这已经是中国具身和机器人基础平台里最值得重视的资本事件之一。资金没有只流向聊天模型，而是继续压向机器人底层平台、开发板和生态。

深度分析：

地瓜机器人与地平线在技术上保持强协同，围绕“大算力+大模型”构建具身智能底座。
RDK S600 与 HoloMotion、HoloBrain 的原生适配，说明公司想做的不是单点硬件，而是软硬一体的“机器人标准件”。
开发者破 10 万和服务 500+ 创新团队，意味着它已经形成一定生态网络效应，而不只是卖板卡。

评论观察：

🟢 支持：资金、出货和开发者生态一起增长，比单独融资新闻更有说服力。
🔴 质疑：机器人平台公司普遍面临规模增长快但商业利润兑现慢的问题，后续仍要看生态能否转为持续收入。

**信源：**https://www.qbitai.com/2026/04/397912.html

**关联行动：**关注其融资后是否进一步扩大机器人平台标准化生态和国际开发者覆盖。

CN-6. [B] DeepSeek 网页端上线“快速模式”“专家模式”，V4 信号继续增强

**概述：**量子位 4 月 8 日报道，DeepSeek 网页端上线“快速模式”和“专家模式”，同时带图片图标的“视觉模型”也已开启灰度测试。官方未明确说明底层模型，但社区结合更新后的系统行为与提示信息，持续把这次变化解读为 V4 到来前的强烈前奏。

**技术/产业意义：**这说明 DeepSeek 的产品层不再只是“一个入口跑一个模型”，而是开始做模式分层、能力差异化和视觉能力灰测，为更完整的多模态/多模式产品形态铺路。

深度分析：

“快速模式”与“专家模式”很可能对应不同延迟和推理深度取舍，意味着 DeepSeek 正在把能力结构显式呈现给用户。
视觉模型灰测也很关键，因为这意味着 DeepSeek 下一阶段竞争不只在文本推理，而是更完整的多模态工作流。
如果后续证实与 V4 直接相关，那么这次更新其实是在提前测试用户交互习惯和产品承压能力。

评论观察：

🟢 支持：从单一聊天界面转向分层产品形态，是迈向成熟平台的必要一步。
🔴 质疑：在官方未明确确认底层能力前，社区把它直接等同于 V4 仍有过度解读风险。

**信源：**https://www.qbitai.com/2026/04/397761.html

**关联行动：**持续观察 DeepSeek 是否很快公布 V4、视觉模型和 API 侧的新能力说明。

CN-7. [B] 豆包 PPT 进入“一句话直出”阶段，办公工作流继续产品化

**概述：**新智元 4 月 8 日报道，豆包 PPT 已能实现一句话直出整套演示文稿，核心卖点从“帮你写几页内容”升级为直接生成成品，明显瞄准年终汇报、学生作业和日常办公等高频生产力场景。

**技术/产业意义：**真正重要的不是 PPT 本身，而是豆包在办公链路上持续前移。中国大模型竞争正在从通用问答转向“把一个完整工作流端到端吃下来”。

深度分析：

PPT 场景对模型的要求并不低，需要完成提纲理解、内容组织、版式生成和主题一致性控制。
一旦用户开始用一句话直接生成成品，豆包就不再只是通用助手，而是在抢传统 Office 插件和垂类效率工具的位置。
对字节而言，这类场景还能持续喂给模型高价值办公语料与反馈，形成产品和模型的双向增强。

评论观察：

🟢 支持：办公场景是最容易形成高频复用和付费转化的 AI 切口之一。
🔴 质疑：PPT 生成真正的难点在于专业审美、数据准确和企业模板兼容，Demo 好看不代表大规模可用。

**信源：**https://aiera.com.cn/2026/04/08/other/aiera-com-cn/88980/%E8%BF%98%E5%9C%A8%E7%86%AC%E5%A4%9C%E6%89%8B%E6%90%93ppt%EF%BC%9F%E8%B1%86%E5%8C%85%E4%B8%80%E5%8F%A5%E8%AF%9D%E7%A7%92%E5%87%BA%EF%BC%8C%E6%95%91%E6%B4%BB%E4%BA%86%E6%88%91%E7%9A%84%E5%B9%B4%E7%BB%88%E6%B1%87%E6%8A%A5/

**关联行动：**跟踪豆包是否把 PPT 能力进一步接到飞书/企业协作链路中。

CN-8. [B] 理想首次直接投资具身创业公司，车企资本开始外溢到机器人

**概述：**量子位 4 月 8 日披露，两位理想系核心人物联合创办的具身智能新公司成立仅约两个月便完成首轮融资，股东中同时出现了理想汽车和阿里 CEO 创立的元璟资本。这被认为是理想首次直接投资具身智能机器人创业项目。

**技术/产业意义：**这说明中国车企积累的感知、控制、座舱和供应链能力，正在更系统地向机器人赛道溢出。理想不再只是“人才流出”，而是开始亲自下注。

深度分析：

创业团队背景很强，一位来自理想 AI 研发核心，一位是理想产品策略关键人物。
阿里系资本和理想共同入场，反映具身智能正在吸引互联网平台和制造企业的双重下注。
从产业链角度看，车企切机器人并不意外，二者共享感知、决策、执行器和工程化能力。

评论观察：

🟢 支持：车企在硬件、场景和工程落地上天然比纯算法团队更接近机器人产业化。
🔴 质疑：从智能车跨到通用机器人并不是线性平移，产品定义和商业周期都更难。

**信源：**https://www.qbitai.com/2026/04/397930.html

**关联行动：**继续跟踪这家新公司公开产品方向和首个场景落地。

CN-9. [B] SentiAvatar 开源交互式 3D 数字人框架，试图解决“会动但不会表达”问题

**概述：**新智元 4 月 8 日报道，SentiPulse 联合中国人民大学高瓴人工智能学院推出并开源交互式 3D 数字人框架 SentiAvatar，同时配套发布 SuSuInterActs 数据集，包含 2.1 万段片段、37 小时多模态对话语料，瞄准中文数字人动作、表情与语义脱节的问题。

**技术/产业意义：**中国数字人行业过去长期卷建模和渲染，这次则把重点拉回到“表达自然度”和“实时交互质量”，方向更接近真正可用的人机交互系统。

深度分析：

团队明确把行业问题概括为三点，中文高质量数据缺失、复合语义下动作漂移、音画节奏错位。
数据集和框架一起开源，比单独放论文更容易被产业采纳，因为开发者可以直接拿来训练和验证。
如果这一方向跑通，数字人会从“预设脚本播放机”向“可实时互动的表达界面”升级。

评论观察：

🟢 支持：补足中文交互数据和动作语义对齐，是数字人从 demo 走向应用的关键。
🔴 质疑：数字人长期价值仍取决于真实使用场景，框架开源不等于商业化自然成立。

**信源：**https://aiera.com.cn/2026/04/08/other/admin/89357/sentipulse%E6%90%BA%E6%89%8B%E4%BA%BA%E5%A4%A7%E9%AB%98%E7%93%B4%EF%BC%9A%E5%BC%80%E6%BA%90%E4%BA%A4%E4%BA%92%E5%BC%8F3d%E6%95%B0%E5%AD%97%E4%BA%BA%E6%A1%86%E6%9E%B6sentiavatar%EF%BC%8C%E9%A2%86%E8%B7%91%E8%A1%8C%E4%B8%9A%E4%B8%BB%E6%B5%81%E6%A8%A1%E5%9E%8B/

**关联行动：**关注 SentiAvatar 是否在客服、虚拟主播和教育等场景拿到首批落地案例。

CN-10. [B] 武大团队发布 AI 图表智能体“爱图表”，主打可编辑而非一次性出图

**概述：**量子位 4 月 8 日报道，武汉大学王琼教授团队推出“爱图表（Aitubiao.com）”，被称为全球首个 AI 图表智能体。其核心卖点不是一键生成静态图片，而是输出可继续编辑的数据对象，试图解决现有 AI 图表工具“好看但不好改、经常算错”的问题。

**技术/产业意义：**图表生成是个很容易被低估的办公场景。谁能把“生成”升级为“可编辑、可校正、可继续协作”，谁就更接近企业真正愿意长期付费的生产力工具。

深度分析：

团队判断现有多数 AI 图表产品仍像“盲盒机”，用户对错误和审美失控缺乏修正权。
爱图表强调深度编辑，意味着它在产品设计上更接近专业工具，而不只是 AIGC 演示功能。
对中国 AI 应用层来说，这是一条很实际的路线，避开通用大模型正面硬碰，直接切高频细分工作流。

评论观察：

🟢 支持：可编辑性比“第一次生成是否惊艳”更接近真实办公价值。
🔴 质疑：图表场景看似垂直，但用户是否愿意为单一环节工具持续付费还需要验证。

**信源：**https://www.qbitai.com/2026/04/398001.html

**关联行动：**关注爱图表是否推出团队协作、模板库和企业版能力。

CN-11. [B] 国产免费 2B 开源语音模型在复杂中文贯口上表现突出，中文 TTS 继续卷实用性

**概述：**量子位 4 月 8 日报道，一款国产免费 2B 开源语音模型在复刻郭德纲高难度贯口《莽撞人》时表现亮眼，不仅速度和节奏控制更自然，对“百战百胜”等复杂特殊发音也处理得更准确。文章将其视为中文语音生成从“能说”向“说得准、说得快、说得像”推进的信号。

**技术/产业意义：**中文 TTS 过去经常在快语速、情绪和特殊发音上翻车。如果开源小模型都开始补齐这些短板，中文语音交互、短视频配音和数字人行业的可用门槛会明显下降。

深度分析：

真正难点不是普通朗读，而是快节奏复杂文本下的发音稳定性、韵律和情绪表达。
2B 级别还能免费开源，说明中文语音模型的性能/成本比正在继续改善。
对应用层而言，这类模型最直接的价值在于能把原本需要专业配音或后期修音的工作进一步自动化。

评论观察：

🟢 支持：如果小模型也能把中文难发音场景做好，语音 AI 的普及速度会明显加快。
🔴 质疑：单个高光 demo 不能替代系统 benchmark，跨口音、长文本和稳定性仍需更多验证。

**信源：**https://www.qbitai.com/2026/04/397881.html

**关联行动：**继续跟踪该模型是否公布更完整的公开测试集和商用接入方案。

🇪🇺 欧洲区

EU-1. ⭐ [A] Mistral 以 8.3 亿美元债务融资自建巴黎数据中心，欧洲主权算力进入重资产阶段

**概述：**TNW 4 月 8 日援引 Reuters 报道，Mistral AI 获得由 BNP Paribas、Crédit Agricole CIB、HSBC、MUFG 等七家银行组成财团提供的 8.3 亿美元债务融资，用于在巴黎南侧 Bruyères-le-Châtel 部署约 13,800 块英伟达芯片的数据中心，目标是在 2026 年 Q2 投运。

**技术/产业意义：**这不是普通融资新闻，而是欧洲头部大模型公司从“租算力”转向“控算力”的分水岭。对欧洲企业与政府客户来说，真正稀缺的不只是模型，而是可控、可审计、不中转美国 hyperscaler 的推理与训练栈。

深度分析：

Mistral 过去更多依赖 Azure、Google Cloud、CoreWeave 等外部云，如今自建机房，意味着其商业模式开始向基础设施一体化上探。
报道提到公司 2026 年 2 月 ARR 已超过 4 亿美元，并提出年底冲击 10 亿美元经常性收入目标，说明其敢用债务而不是继续全靠股权融资，本质上是押注企业现金流已经具备一定可预测性。
这笔融资与其此前和 MGX、Bpifrance、NVIDIA 共同规划的 1.4GW AI campus 形成前后呼应，代表欧洲“主权 AI”从政治口号进入工程落地阶段。

评论观察：

🟢 支持：欧洲如果想在 AI 上保留战略自主权，迟早都要走到“自己拿 GPU、自己拿机房、自己拿交付链路”这一步。
🔴 质疑：重资产路线会显著抬高资本开支和运营风险，一旦模型价格战加剧，债务压力会比纯软件公司大得多。

**信源：**https://thenextweb.com/news/mistral-ai-830m-debt-data-centre-paris

**关联行动：**持续跟踪该机房实际投运时间、芯片构成、以及 Mistral 是否进一步推出面向政企的“本地化主权部署”套餐。

EU-2. ⭐ [A] Google DeepMind 推出 Gemma 4，继续把欧洲研究力转化为开放模型影响力

**概述：**Google 官方博客 4 月 2 日发布 Gemma 4，定位为“迄今最强的开放 Gemma 模型”。官方强调其面向开发者和端侧/本地部署，继续走开放权重、可微调、多模态和高效率路线。

**技术/产业意义：**DeepMind 身处伦敦，但影响的是全球开源模型生态。Gemma 4 的重要性不在于单一 benchmark，而在于 Google 继续把 frontier 研究能力向开放模型层外溢，这会直接抬高欧洲开发者和企业能调用到的开源能力上限。

深度分析：

DeepMind 在官方口径里把 Gemma 4 描述为更强的开放模型家族，核心卖点是“byte for byte”能力提升，本质上是在强调单位参数、单位资源下的效率竞争力。
这条路线对欧洲尤其关键，因为欧洲企业通常比美国超大厂更看重部署成本、数据合规和可控性，Gemma 4 这种强调效率与开放性的模型更贴近欧洲实际市场结构。
DeepMind 同时在官方新闻页持续铺开 Gemma、Gemini、科学发现等叙事，说明 Google 正把伦敦研究资产和全球产品矩阵绑定得更紧。

评论观察：

🟢 支持：开放模型继续向前推，会让欧洲不是只能在“监管”上发声，而是在“供给”端也有可见贡献。
🔴 质疑：Gemma 再开放，真正的大规模商用话语权依然掌握在 Google 自家闭源旗舰栈手里，开放层和商业层之间仍有落差。

**信源：**https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/

**关联行动：**优先跟踪 Gemma 4 在欧盟本地部署、蒸馏、边缘推理和企业微调场景中的真实成本曲线。

EU-3. [B] Safetensors 加入 PyTorch Foundation，Hugging Face 试图把“安全权重格式”做成生态底座

**概述：**Hugging Face 4 月 8 日宣布，Safetensors 正式加入 PyTorch Foundation。Safetensors 原本就是 HF 推动的安全模型权重格式，现在进一步进入更中立的基金会治理框架。

**技术/产业意义：**模型生态竞争不只在模型本身，也在权重格式、加载链路和安全默认项。Safetensors 被基金会化，意味着 HF 想把“安全加载”从项目偏好变成行业基建。

深度分析：

Safetensors 的核心价值在于避免 pickle 这类历史方案的任意代码执行风险，这对企业模型分发和第三方权重复用尤其关键。
加入 PyTorch Foundation 后，它的治理结构更容易获得框架、平台、云服务商的广泛采纳，不再只是 Hugging Face 自家标准。
这件事对欧洲公司也很有象征意义，HF 在巴黎，但它正在影响全球最底层的模型交付标准，而不只是做社区平台。

评论观察：

🟢 支持：安全默认值被“制度化”，比单纯靠开发者自觉靠谱得多。
🔴 质疑：文件格式标准化只是第一步，真实供应链风险还包括 checkpoint 来源、签名、依赖和运行环境完整性。

**信源：**https://huggingface.co/blog/safetensors-joins-pytorch-foundation

**关联行动：**后续观察主流训练框架、模型仓库和推理引擎是否进一步把 Safetensors 设为默认输出/加载格式。

EU-4. [B] Hugging Face 发布 TRL v1.0，后训练工具链开始从“研究脚手架”走向稳定基础设施

**概述：**Hugging Face 3 月 31 日发布 TRL v1.0，明确将其定位为能够跟随后训练方法快速演化的统一库，用来承接 RLHF、DPO、GRPO 等训练范式。

**技术/产业意义：**模型行业正从“谁有更大预训练”转向“谁的后训练链路更成熟”。TRL 升到 1.0，代表后训练不再只是前沿实验室的私有工艺，而是在开源生态里逐步变成标准化组件。

深度分析：

官方强调 TRL 的设计不是一次性拍脑袋，而是随着社区实际使用逐步沉淀出来，这说明它已经吸收了大量真实工程反馈。
后训练方法迭代极快，库如果不稳定，就很难支撑企业和研究团队复现实验、比较方法和迁移流程。
对欧洲生态而言，HF 继续占据“开放 AI 工具链操作系统”的位置，影响的不只是模型托管，而是训练方法论本身。

评论观察：

🟢 支持：把 RLHF/DPO/GRPO 等流程工具化，是开源阵营缩小和闭源实验室工艺差距的关键路径。
🔴 质疑：方法更新太快，1.0 不代表稳定期到来，反而可能意味着维护复杂度长期高企。

**信源：**https://huggingface.co/blog/trl-v1

**关联行动：**继续跟踪 TRL v1.0 与 transformers、accelerate、vLLM 等关键栈的联动成熟度。

EU-5. [B] Stability AI 推出 Brand Studio，把生成式模型重新包装成品牌生产平台

**概述：**Stability AI 4 月 8 日发布 Brand Studio，主打面向专业品牌和创意团队的生产平台，提供 Brand ID 自定义模型、Campaign 管理、Producer Mode、Curated Model Routing、Precision Inpainting 等能力。

**技术/产业意义：**这说明 Stability AI 不再把竞争点只放在“某个图像模型有多强”，而是转向更高毛利、更贴近企业工作流的创意生产平台。

深度分析：

Brand Studio 最值得注意的不是单个模型，而是“品牌知识+工作流+权限治理+协作审核”的组合，这更接近企业愿意持续付费的产品形态。
官方明确提到会在 Stable Diffusion、Nano Banana、Seedream 等模型间做路由，本质上是在把模型商品化，把平台产品化。
这也是 Stability 对过去生成模型价格战的一种回应，想把自己从“卖模型 API”升级为“卖品牌内容生产系统”。

评论观察：

🟢 支持：企业客户真正买的是一致性、审批流和品牌控制，不是单次出图惊艳度。
🔴 质疑：Stability 过去商业节奏并不稳定，平台化叙事能否转化为持续收入，还要看大客户落地能力。

**信源：**https://stability.ai/news-updates/brand-studio-by-stability-ai-creative-production-platform-for-brands

**关联行动：**重点观察其是否公布更多品牌客户案例，以及与 Adobe、Canva、OpenAI 图像栈的差异化胜率。

EU-6. ⭐ [A] Wayve、Uber、Nissan 推进东京 Robotaxi 试点，欧洲 Embodied AI 开始真正跨城落地

**概述：**Wayve、Uber 与 Nissan 3 月 11 日宣布合作，计划在 2026 年晚些时候于东京开展 Robotaxi 试点，车辆基于 Nissan LEAF，搭载 Wayve AI Driver，并通过 Uber 网络向乘客提供服务，初期车内仍保留安全员。

**技术/产业意义：**Wayve 是伦敦最值得盯的 embodied AI 公司之一。这次不是单纯的 demo，而是把英国的软件、日产的整车和 Uber 的网络拼成真实运营链路，说明欧洲自动驾驶创业公司正在从“技术故事”走向“跨国商业编排”。

深度分析：

Wayve 的核心卖点是无需高度依赖 HD Map、靠真实世界数据驱动的端到端 AI Driver，这使其更适合跨城市扩张叙事。
东京是高密度、高复杂度、高安全要求市场，在这里做 pilot，代表 Wayve 想证明自己不仅能在英国路况讲故事，也能在亚洲超复杂城市路网泛化。
对欧洲 AI 产业来说，这类出海试点比单次融资更值钱，因为它直接验证“欧洲算法能否接进全球运营系统”。

评论观察：

🟢 支持：把软件、车辆、出行网络三方绑定，是 Robotaxi 真正接近规模化的正确路径。
🔴 质疑：试点和商业化之间仍隔着法规、保险、责任认定和单位经济模型，时间表容易被高估。

**信源：**https://seekingalpha.com/pr/20434135-wayve-uber-and-nissan-announce-collaboration-on-robotaxis

**关联行动：**继续跟踪 Wayve 在东京和伦敦两个试点城市的监管节奏与安全指标披露。

EU-7. ⭐ [A] EU AI Act 的“观望窗口”正在关闭，企业不能再把合规时间表当成可拖延变量

**概述：**Corporate Compliance Insights 4 月 6 日指出，虽然 AI Act 的 omnibus 调整仍在 trilogue 过程中，但欧洲议会与理事会已逐步收敛到更明确的固定时间表。文章特别强调，在最终文本正式通过前，原始的 2026 年 8 月 2 日法定节点依旧有效。

**技术/产业意义：**这对欧洲 AI 市场的含义很直接，监管不再只是“原则性风险”，而是开始转化为具体的组织建设、培训、文档和流程投入。

深度分析：

报道提到高风险 AI 系统的关键时点可能被重排到 2027 和 2028，但在正式通过前，企业不能把延后视为已确定事实。
AI literacy 被重新确认为组织直接义务，而不是仅由成员国承担的政策目标，这意味着企业需要拿出可审计的培训与治理证据。
对通用模型和生成式应用公司来说，这会推动“合规即产品能力”上升，日志、文档、标记、水印、风险分级都将成为商业卖点的一部分。

评论观察：

🟢 支持：明确时间表比长期悬而不决更好，企业至少能开始做逆排期。
🔴 质疑：在标准仍不充分时强推固定节点，可能把大量中小企业拖入“先合规、再创新”的被动节奏。

**信源：**https://www.corporatecomplianceinsights.com/eu-ai-act-wait-see-window-closing/

**关联行动：**持续跟踪 2026 年 8 月前欧盟 trilogue 结果，以及高风险系统和 GPAI 的最终适用日期是否变化。

EU-8. [B] 欧洲 AI 主权讨论开始从“模型和芯片”转向“数据所有权”

**概述：**Tech.eu 4 月 1 日刊文指出，法国、德国推动数字主权的同时，一个更实际的问题正在浮出水面，即谁真正拥有驱动欧洲 AI 系统的数据层。文中以 Countly 为例，强调竞争壁垒正从模型本身向数据控制权迁移。

**技术/产业意义：**这篇文章的价值在于把欧洲主权 AI 讨论从抽象口号拉回到最核心的经济层，即“数据到底留在谁手里”。如果这点抓不住，欧洲就算有模型、有 GPU，长期价值捕获也未必发生在本地。

深度分析：

文中提出 AI 生态至少有三层，算力、模型、数据，而欧洲过去最关注前两层，却经常忽视第三层。
在 GDPR 之后，数据控制权曾更多被视为合规议题，但进入 AI 周期后，数据开始重新变成商业 moat，这会改变企业的系统架构选择。
这也解释了为什么越来越多欧洲公司强调 self-hosted、local infrastructure、data residency，本质上都是在抢数据层的长期控制权。

评论观察：

🟢 支持：主权 AI 如果不谈数据层，最后很容易只剩政策姿态，留不下真正的产业杠杆。
🔴 质疑：中小公司在现实里很难完全放弃美国云和工具，数据主权往往只能是“分层控制”，不是绝对独立。

**信源：**https://tech.eu/2026/04/01/the-missing-layer-in-europes-ai-strategy-data-ownership/

**关联行动：**继续观察欧洲 SaaS、analytics、垂类 AI 公司是否把“数据所有权”明确产品化为卖点。

🇺🇸 北美区

NA-1. ⭐⭐ [A] Anthropic 发布 Project Glasswing，首次公开 Claude Mythos Preview 前沿模型

**概述：**4 月 7 日，Anthropic 宣布成立 Project Glasswing，联合 AWS、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorganChase、Linux 基金会、Microsoft、NVIDIA、Palo Alto Networks 共建网络安全联盟，目标是保护全球关键软件基础设施。配套首次公开一个未发布的前沿模型——Claude Mythos Preview，专门展示其在漏洞挖掘与利用上的能力跃迁。Anthropic 同时承诺最多 1 亿美元 Mythos Preview 使用额度 + 400 万美元直接捐赠给开源安全组织。

**技术/产业意义：**这是 Anthropic 第一次正面承认前沿模型在攻防能力上越过临界点，并选择”先武装防御方”的策略落地 Responsible Scaling。Mythos Preview 不是常规产品线旗舰，而是被定位为”安全专用前沿能力预览”，通过联盟把能力提前交到关键基础设施维护者手里。

深度分析：

**Benchmark：**在 CyberGym 漏洞复现评测上 Mythos Preview 拿到 83.1%，显著超越 Opus 4.6 的 66.6%。
**真实战果：**已在每个主流操作系统和浏览器内挖出数千个高危漏洞，包括 OpenBSD 一个存在 27 年的远程崩溃漏洞、FFmpeg 一行被自动化测试跑过 500 万次都没抓到的 bug、以及 Linux 内核中由模型自主串联的多漏洞攻击链。
**联盟阵容：**云厂、芯片、操作系统、安全、金融、开源基金会全部到齐，是近年规模最大的”防御侧”产业协作。
**战略含义：**Anthropic 主动把”超人类漏洞挖掘”能力从黑箱变成产业公器，目的是抢在攻击者之前完成全球关键软件的清扫。

评论观察：

🟢 支持：这是把前沿模型能力直接转化为公共安全收益的最具体一次行动，也是 RSP 落地最有说服力的案例。
🔴 质疑：Mythos Preview 仍未公开发布，能力评估完全依赖 Anthropic 自述与少量合作方背书，外部独立复现窗口有限；“先给防御方”的边界如何长期维持也是悬而未决的问题。

**信源：**https://www.anthropic.com/news/project-glasswing ; https://www.anthropic.com/glasswing

**关联行动：**持续跟踪 (1) Frontier Red Team blog 后续披露的漏洞技术细节 (2) 联盟成员实战反馈 (3) Mythos 是否最终演化成正式产品线、与 Opus/Sonnet 的关系。

🌐 学术/硬件

AH-1. ⭐ [A] Video-MME-v2 出炉，视频理解 benchmark 开始反击“榜单虚高”问题

**概述：**arXiv 新论文《Video-MME-v2》提出新一代综合视频理解 benchmark，强调鲁棒性和 faithful reasoning，构建了从视觉信息聚合、时间动态建模到复杂多模态推理的三级评测体系，并通过组级非线性评分抑制“蒙对题”。

**技术/产业意义：**视频模型现在最大的问题之一不是没有 benchmark，而是旧 benchmark 已经被刷穿。Video-MME-v2 的价值在于把“是否真的理解视频”重新拉回评测核心。

深度分析：

论文用了渐进式三层级任务设计，不再把所有视频问题粗暴混在一起，而是拆出视觉聚合、时序建模和高阶推理的链路瓶颈。
它引入了 group-based non-linear evaluation，不再只看逐题 accuracy，而是要求相关问题之间保持一致推理，这更接近真实能力。
数据构建用了 12 名标注员、50 名独立审核者、约 3300 小时人工和最多 5 轮质检，说明作者有意识地把 benchmark 做成长期耐刷的基座。

评论观察：

🟢 支持：这类 benchmark 对当前视频大模型是必要的“去泡沫”动作。
🔴 质疑：更复杂的评分体系虽更严谨，但也会提高社区复现和日常比较成本。

**信源：**https://arxiv.org/abs/2604.05015

**关联行动：**后续值得重点跟踪主流视频多模态模型在 Video-MME-v2 上的代际差距，而不是只看旧榜单。

AH-2. [B] ACES 试图解决“LLM 用自己写的测试挑自己生成的代码”这一循环问题

概述：《ACES: Who Tests the Tests?》提出 Leave-One-Out AUC Consistency 评分方法，不直接判断测试本身是否正确，而是通过留一法衡量测试对正确/错误代码的区分能力，为测试加权。

**技术/产业意义：**代码生成系统越来越依赖“模型生成若干候选，再用生成的测试筛选”。问题是测试也可能错。ACES 瞄准的正是这个生产链路里最常被忽略的误差放大点。

深度分析：

作者指出核心不是“多少测试通过”，而是“某个测试能否真正区分对错代码”，这是很重要的思路转向。
ACES-C 给出闭式近似权重，ACES-O 则进一步做可微优化，二者都只依赖二值 pass matrix，工程成本不高。
如果这类方法成立，代码生成评测会从简单多数投票进一步走向“测试质量感知”的精细选择。

评论观察：

🟢 支持：这是非常实用的问题，直接对应未来 agentic coding 的候选筛选链路。
🔴 质疑：留一法一致性不等于真正语义正确，复杂程序语义下仍可能高估某些“貌似好用”的测试。

**信源：**https://arxiv.org/abs/2604.03922

**关联行动：**建议继续关注它在真实 coding agent 评测流水线中的增益，而不只是在离线 benchmark 上看 Pass@k。

AH-3. [B] Paper Circle 把多 Agent 文献检索、打分、知识图谱分析串成完整研究流水线

概述：《Paper Circle》公开了一个多 Agent 研究发现与分析框架，分为 Discovery Pipeline 和 Analysis Pipeline，支持多源检索、多标准评分、多样性排序、结构化输出、知识图谱化论文理解和 graph-aware QA。

**技术/产业意义：**这类系统的重点不是“帮你找几篇论文”，而是把检索、筛选、整理、追问和复现实验接口整成一条 reproducible 研究工作流。

深度分析：

Discovery Pipeline 处理找论文和排序问题，Analysis Pipeline 负责把论文拆成方法、概念、实验、图表等 typed nodes，这比简单摘要更接近研究助手场景。
输出 JSON、CSV、BibTeX、Markdown、HTML 的设计很务实，说明它瞄准的不只是 demo，而是能接进真实研究协作工具链。
论文还公开了网站和 GitHub，意味着这个方向可能很快从“研究 agent”走向可复制产品模版。

评论观察：

🟢 支持：如果研究信息过载继续加剧，这类工作流型 agent 会比单轮聊天更有价值。
🔴 质疑：多 Agent 架构的复杂度、成本和可解释性仍是落地门槛，尤其在高密度学术领域容易堆出过度工程。

**信源：**https://arxiv.org/abs/2604.06170

**关联行动：**建议后续重点看它在 hit rate、MRR、Recall@K 之外，是否真的减少人工 review 时间。

AH-4. ⭐ [A] In-Place Test-Time Training 把 LLM 的“部署后继续学”往前推了一步

概述：《In-Place Test-Time Training》提出一种给现有 LLM 原地加上 TTT 能力的框架，把 MLP block 最后的投影矩阵当作 fast weights，在推理时按 next-token 目标做高效更新，号称可作为现有 LLM 的“drop-in”增强。

**技术/产业意义：**这类工作代表一个重要方向，即模型部署后不再完全静态，而是开始对连续流入的新信息做局部自适应。它触碰的是长上下文、持续学习、在线适配这几个长期核心难题。

深度分析：

作者没有要求从头重训架构，而是直接在现有 LLM 常见 MLP 末端投影矩阵上做 fast weight 适配，工程迁移成本更低。
论文把传统 TTT 的重构目标替换为更贴近 next-token prediction 的目标，这是语言模型场景里很关键的一步。
实验显示其在长达 128k 上下文任务中可显著提升 4B 模型表现，说明它不是纯概念验证，而是已经开始打到现实上下文瓶颈。

评论观察：

🟢 支持：如果这条路线成熟，未来“推理”和“在线学习”之间的边界会明显模糊。
🔴 质疑：推理期改权重会带来状态管理、可重复性、服务稳定性和安全控制的新复杂度。

**信源：**https://arxiv.org/abs/2604.06169

**关联行动：**建议持续跟踪它在 agent memory、持续对话和企业私有知识更新场景中的实战价值。

AH-5. [B] ThinkTwice 用双阶段 RL 同时优化“先推理”与“再修正”

概述：《ThinkTwice》提出一个两阶段框架，在同一组题目上先优化模型求解，再优化模型自我修正，不依赖额外 critique 标注，仅用二元正确性奖励完成 reasoning 与 self-refinement 的联合训练。

**技术/产业意义：**现在很多模型都在做 self-correction，但大多是提示工程或后处理。ThinkTwice 的价值在于直接把“会不会改错”和“会不会先做对”一起放进训练目标。

深度分析：

论文基于 GRPO，把推理和精修变成成对训练步骤，避免二者目标割裂。
在 Qwen3-4B 上，作者报告 AIME 基准下相对 GRPO 有明显提升，尤其在 refinement 后增幅更大，说明“先做再改”确实能形成课程式增益。
作者提出 refine 过程存在从 rectify-then-fortify 的自然迁移，即先纠错、后稳固，这是很值得继续验证的训练动态观察。

评论观察：

🟢 支持：这条路线和“推理模型”大趋势一致，而且比单纯堆更长 CoT 更有方法论味道。
🔴 质疑：自我修正若缺少外部判别器，容易学会更会“解释自己”，未必真的更可靠。

**信源：**https://arxiv.org/abs/2604.01591

**关联行动：**后续应重点比较 ThinkTwice 在数学之外的代码、规划、工具使用任务中是否同样成立。

AH-6. [B] DARE 试图给扩散式 LLM 的后训练生态补一层统一执行框架

概述：《DARE》提出一个面向 diffusion LLM 的 post-training 与评测框架，统一 SFT、PEFT、preference optimization 以及 dLLM 特有 RL 训练，覆盖 LLaDA、Dream、SDAR 等家族。

**技术/产业意义：**扩散式语言模型最近开始频繁冒头，但生态仍很碎。DARE 的意义在于把“论文各写各的脚本”推进到“共享执行栈”，降低扩散 LLM 研究和比较门槛。

深度分析：

论文明确指出当前 dLLM 的最大问题之一不是没有想法，而是代码、评测、rollout 与后训练流程严重碎片化。
它基于 verl 和 OpenCompass 打通训练与评测，让 masked/block diffusion 模型能在同一框架下比较。
如果后续更多 dLLM 研究接入统一栈，扩散范式才有可能真正形成与 autoregressive 路线并行的开放生态。

评论观察：

🟢 支持：统一执行框架往往比单篇 SOTA 论文更能决定一个新范式能否成气候。
🔴 质疑：如果扩散 LLM 本身迟迟不能证明大规模商业优势，框架层建设可能会先于需求爆发。

**信源：**https://arxiv.org/abs/2604.04215

**关联行动：**持续关注 DARE 是否被更多 dLLM 项目采纳，以及其评测能否形成行业共同语言。

AH-7. [B] QiMeng-PRepair 针对程序修复中的“过度编辑”下手，强调只改错处不重写整段

概述：《QiMeng-PRepair》指出 LLM 程序修复经常出现 over-editing，即为了修一个 bug 改掉大量原本正确的代码。作者提出 precise repair 任务，并用 Edit-Aware GRPO 奖励最小且正确的编辑。

**技术/产业意义：**这件事非常贴近 coding agent 落地。真实工程最怕的不是“没修好”，而是“修好了一个 bug，顺手改坏三处逻辑”。

深度分析：

论文把“修复正确率”和“修改幅度”一起纳入 fix1@1 一类新指标，更接近真实工程偏好。
Self-Breaking 通过受控注入 bug 生成训练样本，Self-Repairing 再用 edit-aware reward 做优化，形成一条自举式数据和训练路径。
作者报告在综合正确性与修改范围的指标上最高可提升 31.4%，而且配合 speculative editing 还能提高解码吞吐，这点很实用。

评论观察：

🟢 支持：程序修复从“能改对”走向“改得克制”，是 coding agent 进入生产环境的关键一步。
🔴 质疑：不同工程风格和重构偏好下，“最小编辑”未必总是最佳工程答案。

**信源：**https://arxiv.org/abs/2604.05963

**关联行动：**建议重点跟踪它在真实仓库 PR 修复、回归测试和 reviewer 接受率上的表现。

AH-8. [B] Action Images 把机器人动作转成像素级“动作图像”，试图让视频骨干直接变策略

概述：《Action Images》提出把 7-DoF 机器人动作转换为 grounded 的多视角动作图像，以 multiview video generation 的方式统一建模策略学习，不再依赖单独的 policy head 或低维 action token。

**技术/产业意义：**它代表具身学习里一个很有意思的方向，即直接把控制问题重新表述成视频生成问题，借力成熟的视频 backbone，而不是另外造一套动作模块。

深度分析：

论文强调动作表示必须 pixel-grounded，这样才能更充分继承视频模型的预训练知识，并更自然迁移到多视角和跨环境设置。
统一模型同时支持视频-动作联合生成、动作条件视频生成和动作标注，说明它不是单点任务 hack，而是完整表示层设计。
在 RLBench 和真实世界评测里，作者报告 zero-shot 成功率更强，这对机器人策略泛化是很关键的信号。

评论观察：

🟢 支持：把 action 变成可解释像素对象，有机会减少“控制层”和“感知层”之间的语义断裂。
🔴 质疑：视频生成式策略在闭环控制中的时延、稳定性和安全冗余仍需要更严厉测试。

**信源：**https://arxiv.org/abs/2604.06168

**关联行动：**持续关注这一路线在真实机器人闭环频率和复杂操作任务上的上限。

AH-9. [B] CUE-R 提醒 RAG 评测不能只盯最终答案，还要看每条证据到底有没有在推理里起作用

概述：《CUE-R》提出一种 intervention-based 框架，通过对单条证据做 REMOVE、REPLACE、DUPLICATE 干预，衡量证据对正确性、grounding、confidence error 和 trace shift 的具体影响。

**技术/产业意义：**现在很多 RAG 系统只看最后答对没答对，但 agent 化推理越来越依赖多步检索，证据项到底有没有真被“用上”，正在变成更关键的问题。

深度分析：

CUE-R 的核心不是静态 attribution，而是直接做干预实验，这更接近因果视角。
论文发现 REMOVE 和 REPLACE 会明显伤害正确性和 grounding，而 DUPLICATE 往往表面不影响答案，但行为轨迹并非完全中性，这很有启发性。
两支持项消融结果还显示，多跳证据间可能存在非线性交互，意味着 answer-only 评测会漏掉很多过程层信息。

评论观察：

🟢 支持：这类工作很适合未来评估 agentic RAG，而不是停留在传统 QA 指标。
🔴 质疑：trace 级分析会提高评测复杂度，对生产团队来说成本不低。

**信源：**https://arxiv.org/abs/2604.05467

**关联行动：**建议后续关注它是否被纳入多跳 RAG 和工具使用 agent 的标准评测流程。

AH-10. ⭐ [A] TSMC 先进封装成为 AI 新瓶颈，NVIDIA 提前锁产能的影响开始外溢

**概述：**CNBC 4 月 8 日报道，先进封装正成为 AI 芯片制造新的关键瓶颈，NVIDIA 已预定 TSMC 大部分最先进封装产能。相比前段晶圆制造，CoWoS 等先进封装能力正在成为 AI GPU 供应链的真正短板。

**技术/产业意义：**这条新闻很关键，因为它说明 AI 算力竞争已经不再只是“谁能设计出更强芯片”，而是“谁能抢到后段封装产线”。封装正从幕后工艺变成影响 AI 产业节奏的一线变量。

深度分析：

大模型时代，多芯粒、高带宽内存、复杂互连都让先进封装的重要性暴涨，CoWoS 等能力直接关系到 AI GPU 能否出货。
NVIDIA 若持续锁定大部分先进封装产能，影响的不只是自身供货，还会抬高其他 AI 芯片玩家的时间成本和议价压力。
这也解释了为什么 Intel、三星、美国本土扩产计划都在加速向 advanced packaging 延伸，因为真正的瓶颈已经后移。

评论观察：

🟢 支持：把封装视为战略资源，比继续只盯制程节点更符合当下 AI 芯片现实。
🔴 质疑：短期媒体叙事容易把所有供需矛盾都归结到封装，但电力、机架、HBM、网络也同样是系统级约束。

**信源：**https://www.cnbc.com/2026/04/08/tsmc-nvidia-advanced-packaging-intel.html

**关联行动：**后续重点跟踪 TSMC、Intel、三星在先进封装扩产上的时间表，以及谁能切走 NVIDIA 之外的订单。

AH-11. [B] Crunchbase 指出 2026 年 Q1 AI 风投推高全球融资到 3000 亿美元，算力与基础设施仍是主引擎

**概述：**Crunchbase 4 月 1 日指出，2026 年第一季度全球创投资金达到 3000 亿美元，AI 热潮是最核心驱动，其中大量资本继续流向算力、基础设施与 frontier labs。

**技术/产业意义：**这说明资本市场并未因为模型同质化就降温，反而在继续押注“算力稀缺”和“基础设施定价权”。对行业格局而言，这比单次模型发布更能解释未来一两年的竞争方向。

深度分析：

资金流向如果继续偏向 compute 与 infra，意味着产业中心会进一步向掌握 GPU、机房、电力、封装、云分发的人集中。
这也和 Mistral 自建数据中心、TSMC 封装瓶颈等信号互相印证，说明 AI 竞争正在加速“基础设施金融化”。
从市场结构看，这类投资热潮短期会强化头部集中，但也可能把中游模型公司压得更难生存。

评论观察：

🟢 支持：资本正在更清楚地区分“短期噱头应用”和“真正稀缺的底层供给”。
🔴 质疑：当资金集中追逐算力叙事时，也要警惕建设周期、需求兑现和价格战带来的泡沫化风险。

**信源：**https://news.crunchbase.com/venture/record-breaking-funding-ai-global-q1-2026/

**关联行动：**继续跟踪 Q2 是否延续“资本向 infra 集中”的趋势，以及应用层融资是否进一步两极分化。

上期追踪问题回应
🇨🇳 中国区
CN-1. ⭐ 智谱 GLM-5.1 Day0 上线华为云，昇腾推理吞吐提升 30%
CN-2. ⭐ 京东、美团开始限制外部 AI 接入，企业内生模型护城河进一步加深
CN-3. ⭐ 阿里电商 AI 战略围绕 Token 重构，ATH 正在统一商业化入口
CN-4. ⭐ 原力灵机发布 GEN-1 技术博客，继续押注“具身原生”路线
CN-5. ⭐ 地瓜机器人再获 1.5 亿美元投资，B 轮累计达 2.7 亿美元
CN-6. [B] DeepSeek 网页端上线“快速模式”“专家模式”，V4 信号继续增强
CN-7. [B] 豆包 PPT 进入“一句话直出”阶段，办公工作流继续产品化
CN-8. [B] 理想首次直接投资具身创业公司，车企资本开始外溢到机器人
CN-9. [B] SentiAvatar 开源交互式 3D 数字人框架，试图解决“会动但不会表达”问题
CN-10. [B] 武大团队发布 AI 图表智能体“爱图表”，主打可编辑而非一次性出图
CN-11. [B] 国产免费 2B 开源语音模型在复杂中文贯口上表现突出，中文 TTS 继续卷实用性
🇪🇺 欧洲区
EU-1. ⭐ [A] Mistral 以 8.3 亿美元债务融资自建巴黎数据中心，欧洲主权算力进入重资产阶段
EU-2. ⭐ [A] Google DeepMind 推出 Gemma 4，继续把欧洲研究力转化为开放模型影响力
EU-3. [B] Safetensors 加入 PyTorch Foundation，Hugging Face 试图把“安全权重格式”做成生态底座
EU-4. [B] Hugging Face 发布 TRL v1.0，后训练工具链开始从“研究脚手架”走向稳定基础设施
EU-5. [B] Stability AI 推出 Brand Studio，把生成式模型重新包装成品牌生产平台
EU-6. ⭐ [A] Wayve、Uber、Nissan 推进东京 Robotaxi 试点，欧洲 Embodied AI 开始真正跨城落地
EU-7. ⭐ [A] EU AI Act 的“观望窗口”正在关闭，企业不能再把合规时间表当成可拖延变量
EU-8. [B] 欧洲 AI 主权讨论开始从“模型和芯片”转向“数据所有权”
🇺🇸 北美区
NA-1. ⭐⭐ [A] Anthropic 发布 Project Glasswing，首次公开 Claude Mythos Preview 前沿模型
🌐 学术/硬件
AH-1. ⭐ [A] Video-MME-v2 出炉，视频理解 benchmark 开始反击“榜单虚高”问题
AH-2. [B] ACES 试图解决“LLM 用自己写的测试挑自己生成的代码”这一循环问题
AH-3. [B] Paper Circle 把多 Agent 文献检索、打分、知识图谱分析串成完整研究流水线
AH-4. ⭐ [A] In-Place Test-Time Training 把 LLM 的“部署后继续学”往前推了一步
AH-5. [B] ThinkTwice 用双阶段 RL 同时优化“先推理”与“再修正”
AH-6. [B] DARE 试图给扩散式 LLM 的后训练生态补一层统一执行框架
AH-7. [B] QiMeng-PRepair 针对程序修复中的“过度编辑”下手，强调只改错处不重写整段
AH-8. [B] Action Images 把机器人动作转成像素级“动作图像”，试图让视频骨干直接变策略
AH-9. [B] CUE-R 提醒 RAG 评测不能只盯最终答案，还要看每条证据到底有没有在推理里起作用
AH-10. ⭐ [A] TSMC 先进封装成为 AI 新瓶颈，NVIDIA 提前锁产能的影响开始外溢
AH-11. [B] Crunchbase 指出 2026 年 Q1 AI 风投推高全球融资到 3000 亿美元，算力与基础设施仍是主引擎