News

2026-05-14 AI 日报

上期追踪问题回应

阿里会不会在未来 24-72 小时内补出千问接入淘宝的正式开放节奏、首批品类范围，以及 AI 推荐失误时的售后与责任边界？
- 今天继续实际复核了 Qwen Research、阿里云/千问相关入口，以及 dated 中文搜索结果。过去 24 小时里，能确认落在窗口内的新信息主要是高德与千问 C 端应用团队开源 AGenUI 这类开发者基础设施动作，没有出现“千问接入淘宝”的正式开放时间、首批类目、排序逻辑或售后责任边界公告。也就是说，这条追踪问题今天仍停留在“阿里继续扩 AI 能力栈，但对话式购物治理细则未落锤”。
可灵 AI 的“200 亿美元估值 + 体外融资 + 明年 IPO”会不会很快等来快手官方回应，或者出现首批投资人和融资结构细节？
- 这条今天有了部分回应。虎嗅 05-13 23:21 报道称，快手已发布自愿性公告，证实分拆可灵 AI 的方向，核心目标是引入外部财务资源；文章同时把可灵与百度昆仑芯并列，指出传统互联网母体与高估值 AI 资产之间的估值倒挂，正在倒逼分拆。但仍没有看到首批投资人名单、具体融资结构或时间表的官方细则，因此这条追踪问题今天推进到了“分拆方向被坐实，交易细节仍未补全”的阶段。
小米 MiMo Orbit 100T Token 计划发完之后，能不能继续补出开发者留存、真实转化或更多 Agent 框架接入数据，证明这不是一次性流量投喂？
- 今天中国区实际复核了小米 AI / MiMo 相关入口与 dated 搜索结果，没有检出过去 24 小时内新增的官方留存、转化或框架接入硬数字。换句话说，MiMo 这条线今天没有比 05-13 更硬的新证据，追踪问题继续保持开放。

🇨🇳 中国区

本轮实际访问并复核了 DeepSeek 官网/API Docs、Qwen Research、智谱模型文档、Moonshot 官网、腾讯混元、MiniMax News（浏览器降级核对旧日期）、商汤/讯飞/小米/昇腾/寒武纪/海光/摩尔线程等公司入口；同时实际访问了 36Kr AI、量子位、虎嗅 AI 等中文科技源，并对 DeepSeek / 百度 / 千问 / Kimi / 智谱 / MiniMax / 腾讯 / 可灵 / 算力政策等话题做了 dated 检索与过去 7 天去重。严格按北京时间 2026-05-13 10:02 之后、原文可读、发布日期明确、A/B 级过滤后，最终保留 8 条中国区新增。需要明确说明：DeepSeek、Qwen、智谱、Kimi、混元、MiniMax、昇腾等官方入口今天没有检出能在 24 小时窗口内直接独立入库的新官方正文，因此没有硬凑旧闻；其中 MiniMax News 通过浏览器降级复核后，首页显示的 M2.1 / Speech 2.8 等文章实际日期为 2025-12-23 等旧文，不满足 24 小时铁律。

CN-1. ⭐ [A] 百度在 Create 2026 正式抛出 DAA 指标，并把 DuMate、秒哒、一镜、伐谋打包成“智能体自我进化”主线

概述： 量子位 05-13 12:43:31 报道，李彦宏在 Create 2026 百度 AI 开发者大会上首次提出“日活智能体数（DAA）”作为 AI 时代的新核心指标，明确反对只盯 Token 消耗；同时大会一口气更新了 DuMate 移动端、秒哒 App/企业版、百度一镜数字人平台和伐谋 2.0 等多条产品线。文章给出的关键新增信息是：百度正试图把“芯云模体”全栈能力，真正收束成面向智能体时代的统一产品体系。

技术/产业意义： 这条是标准 A 级，也够挂 ⭐。因为百度不只是又开一场大会，而是在重新定义“AI 商业化到底该看什么”：从看模型成本，转到看多少 Agent 真正在替人执行任务、交付结果。

深度分析： DAA 的野心在于改写行业度量逻辑。过去大模型公司容易沉迷于 Token、调用量和 DAU，但这些指标更像“投入”和“流量”，并不直接证明 AI 是否真的把工作做完。百度现在把 DuMate、秒哒、伐谋、一镜放进同一叙事，本质是在押注“智能体不是聊天框，而是任务执行系统”。这背后有两层含义：一是百度想把搜索、云、代码生成、数字人、企业决策这些能力重新组织成一整套 Agent 操作层；二是它试图利用自家基础设施优势，把“模型厂商”升级成“智能体平台厂商”。如果 DAA 被行业接住，未来中国 AI 公司之间的比较逻辑会从“谁模型更强”转向“谁真正掌控任务闭环”。

评论观察：

🟢 支持：百度终于不再只卖底模能力，而是在拿一套完整的智能体任务体系重新定义价值衡量方式。
🔴 质疑：DAA 概念很强，但前提是行业先接受“如何定义一个有效智能体、一次有效交付”，否则容易变成新的口径游戏。

信源： https://www.qbitai.com/2026/05/416762.html

关联行动： 继续追百度会不会很快补出 DAA 的统一统计口径、典型行业案例，以及 DuMate/伐谋/一镜之间的产品联动数据。

CN-2. [B] 百度把秒哒 3.0 推到“直接生成 APP + 手机端即做即发”，AI Coding 正从 Demo 工具转向生产级应用工厂

概述： 量子位 05-13 22:04:42 报道，百度在 Create 2026 上升级秒哒 3.0，新增直接生成 iOS/Android 应用、安卓打包、在线热更新、手机端创作，以及企业版协作与权限管理能力。文章给出的新增硬信息包括：秒哒 App 安卓版已上线、企业版正式发布，且“智会圈”等应用已在大会现场直接由秒哒生成并演示。

技术/产业意义： 这条值 B。它的重要性不在“又一个 AI Coding 工具”，而在于百度试图补上过去最难的一段：从能写网页 Demo，到能做可发布、可协作、可运维的生产级应用。

深度分析： 秒哒 3.0 的关键不是会不会写代码，而是能否把应用生成链路真正闭环。行业里大多数 AI 编程工具擅长“写一段”“搭一个页面”，但一旦涉及移动端发布、权限管理、多人协作、数据库环境隔离、线上热更新，就会从玩具级直接跳到工程级。秒哒现在把 APP 生成、企业版协作、SLA 保障和手机端工作流一起推出来，本质是在抢一个更大的赛道：不是当程序员的副驾驶，而是当不会写代码的业务方也能直接调用的应用工厂。如果它能证明稳定性和持续迭代能力，国内 AI 应用开发门槛会被再砍一刀。

评论观察：

🟢 支持：把“从想法到上线”的最后一公里补齐，比单纯秀代码生成更接近真实生产力。
🔴 质疑：AI 生成 APP 的上限不在首轮搭建，而在后续维护、权限治理和复杂状态管理，秒哒还要在这些硬场景里过关。

信源： https://www.qbitai.com/2026/05/417366.html

关联行动： 继续追秒哒 3.0 后续会不会公开更多企业案例、生成成功率、运维稳定性和团队协作数据。

CN-3. [B] 高德与千问 C 端应用团队开源 AGenUI，把原生 A2UI 从协议层推进到真正能在 iOS/安卓/鸿蒙跑起来的端侧基础设施

概述： 量子位 05-13 13:53:02 报道，高德与阿里千问 C 端应用团队发布并开源 AGenUI，定位为首个覆盖 iOS、Android、HarmonyOS 三端的端云一体原生 A2UI 框架。文章给出的新增硬信息包括：框架采用端云一体架构、Streaming-first 流式渲染、跨平台 C++ Core，并内置 22 个基础组件和 45 项 CSS 属性。

技术/产业意义： 这条值 B。因为它解决的不是“模型会不会描述 UI”，而是“AI 生成的界面如何在多端原生跑起来并保持交互质量”，这是 Agent 真正进入移动端产品形态的关键一层。

深度分析： AGenUI 本质上是在补全 A2UI 的缺口。Google 开放协议负责定义“模型如何描述界面”，但真正难的是端侧原生渲染、状态管理、差分更新和品牌样式映射。高德+千问这次把这些工程问题做成统一底层，使 Agent 不再只输出一坨文本或网页，而能直接生成可交互的原生卡片，这对导航、本地生活、移动办公等复杂场景尤其关键。更重要的是，它把阿里的模型生态和高德的端侧工程经验绑在了一起，说明中国大厂开始认真补“生成式 UI 基建”而不只是卷模型参数。

评论观察：

🟢 支持：把跨端生成式 UI 做成基础设施，对移动 Agent 生态是很关键的工程补位。
🔴 质疑：协议统一只是第一步，复杂业务控件、性能边界和大规模真实产品接入仍需时间验证。

信源： https://www.qbitai.com/2026/05/416864.html

关联行动： 继续追 AGenUI 是否很快放出更多真实 App 接入案例，以及阿里会不会把它进一步并入千问 / 高德的正式产品栈。

CN-4. [B] 前 Qwen 负责人林俊旸被曝创业、种子轮目标估值 20 亿美元，中国 Agent 创业开始直接按硅谷顶格预期定价

概述： 量子位 05-13 16:44:16 报道，前阿里 Qwen 技术负责人林俊旸离职后正式创业，新项目尚未公开产品，但种子轮目标估值已被曝达到 20 亿美元（约 135 亿元人民币），高榕与红杉中国被曝正在深入洽谈投资。文章同时把他的公开长文《From “Reasoning” Thinking to “Agentic” Thinking》拿来作为路线线索，指向“为了行动而思考”的 Agentic Thinking。

技术/产业意义： 这条值 B，而且很值得盯。它的重要性不在八卦，而在于中国顶级模型负责人单飞后，资本已经愿意在“还没发产品”的阶段，直接为 Agent 路线支付接近硅谷一线的预期溢价。

深度分析： 林俊旸这件事至少透露了三层信号。第一，Qwen 这类开源与多模态体系做出来的核心班底，开始从大厂内部流向新一轮创业，这会抬高中国 Agent 创业的技术起点。第二，估值定价不再只盯“你现在有多少收入”，而是在押“你是否能把 Reasoning 时代的能力延伸到 Agentic Thinking 时代”，即把模型、环境、编排和反馈闭环做成系统能力。第三，这也意味着中国市场对顶级 AI 人才的争夺已经切入“先给高估值、再看产品落地”的阶段，未来半年很可能会看到更多围绕基础模型骨干、Agent 基建和环境设计的高估值新公司。

评论观察：

🟢 支持：顶级模型核心负责人出来创业，本身就是中国 AI 人才市场进入下一阶段的强信号。
🔴 质疑：高估值可以买到预期，但买不到产品；没有产品、没有客户、没有验证之前，20 亿美元仍带明显泡沫溢价。

信源： https://www.qbitai.com/2026/05/416963.html

关联行动： 继续追林俊旸创业项目的正式名称、首个产品方向，以及它是否会围绕 Agentic Thinking 提前公布技术框架或开源计划。

CN-5. [B] 基流科技冲刺港股 IPO，把“中国最大独立 AI 算力集群提供商”故事推到资本市场正面答辩阶段

概述： 虎嗅 05-14 00:36:27 报道，2026 年 4 月 29 日向港交所递表的上海基流科技，成立仅 3 年、累计完成 11 轮融资、募资近 22 亿元，D 轮投后估值 91.6 亿元；公司自称已成为中国规模最大的独立 AI 算力集群提供商，技术支持 GPU 卡数超 9 万张。文章同时给出财务硬信息：2025 年营收 5.2 亿元，但会计口径净亏损 3.56 亿元，资产负债率高达 136.61%。

技术/产业意义： 这条值 B。因为它不只是又一家 AI 公司融资，而是中国“算力集群运维/调度中间层”第一次被公开拉到 IPO 市场接受估值、盈利和技术含金量的系统拷问。

深度分析： 基流的故事抓住了中国大模型产业一个真实痛点：GPU 很贵，但把成千上万张卡真正用顺、更高效地互联和调度，同样是稀缺能力。公司能在 3 年内完成 11 轮融资、吃到智谱的股东兼客户关系，说明资本认可“GPU+通信优化”这条基础设施赛道确实有需求。但招股书也暴露了明显张力：高增长和高亏损并存，硬件集成收入占比过高，经营现金流连续为负，技术护城河披露又不够细。这意味着市场接下来要回答的，不是“算力服务有没有需求”，而是“这类公司能不能从 GPU 集成商真正升级成高毛利、可复制的软件/运维平台”。

评论观察：

🟢 支持：AI 算力调度中间层终于走到公开资本市场，说明中国基础设施链条开始被单独定价。
🔴 质疑：高融资密度、高负债和低毛利硬件占比，说明基流离“稳健平台型公司”还有不小距离。

信源： https://www.huxiu.com/article/4858164.html

关联行动： 继续追基流招股书后续更新、港交所问询重点，以及 Venus 算力操作系统是否会补出更明确的性能与专利细节。

CN-6. [B] DeepSeek 特殊 token 注入被大规模复现，这不是“数据泄露”，而是 Agent/聊天系统协议边界正在被真实用户压力测试

概述： 虎嗅 05-13 17:11:31 报道，用户在 DeepSeek 输入特定特殊 token 后，模型会吐出看似“疯言疯语”的随机长文本，引发外界对训练数据泄露与隐藏指令的猜测。文章给出的核心结论是：这更接近一种已知的特殊 token 注入攻击，问题不在“模型偷偷记住了数据”，而在用户可直接把系统保留 token 喂进对话模板，导致模型进入无锚点随机采样状态。

技术/产业意义： 这条值 B。它点中的不是猎奇 bug，而是 Agent/对话产品一个越来越现实的安全边界：一旦用户能破坏协议层，模型就可能被拖离原本的任务语境。

深度分析： 这件事值得看，是因为它把“模型安全”从抽象风险拉回到工程细节。很多团队默认特殊 token 只会由系统后端插入，但真实产品里，前端输入、tokenizer、对话模板和服务端转义规则只要有一环没锁死，就可能让用户直接打穿协议层。对 DeepSeek 这类高频公共入口来说，这种现象哪怕不造成真实数据泄露，也会快速伤害用户信任；对更高权限的 Agent 系统来说，风险会更严重——因为被注入的可能不只是胡言乱语，而是工具调用、越权执行或任务偏航。它提醒国内所有智能体产品：安全不只是模型层问题，也是 prompt protocol、token 转义和系统模板校验的问题。

评论观察：

🟢 支持：把这类现象解释清楚，有助于行业从“神秘咒语”叙事回到严肃的模型安全工程。
🔴 质疑：如果产品仍允许这类特殊 token 轻易穿透前端，说明很多国产 AI 应用在输入治理和协议防护上还不够成熟。

信源： https://www.huxiu.com/article/4858028.html

关联行动： 继续追 DeepSeek 官方是否补充修复说明，以及更多国产 Agent 产品会不会同步加强特殊 token 转义与模板校验。

CN-7. [B] 更新：DeepSeek 与月之暗面的新融资，被 36Kr 明确写成“中国大模型两种活法”的估值分叉

概述： 05-10 与 05-13 已连续报道 DeepSeek 融资与月之暗面扩张线索，今天 36Kr 05-13 20:45 给出的新增信息是：它把 DeepSeek、月之暗面、阶跃星辰这波百亿美元级融资并置比较，明确归纳出两条不同的估值逻辑——DeepSeek 更像“低价开源 + 基础设施层生态绑定”，月之暗面则是“高融资 + 快速商业化 + 全球扩张”。新增价值不在融资传闻本身，而在于市场开始用更清晰的“基础设施定价 vs 能力服务定价”框架解释头部中国模型公司。

技术/产业意义： 这条值 B，属于典型路径 3 的“更新 / 补充”。它不是首发新闻，但它给出了中国大模型资本竞争正在如何分层定价的更明确信号。

深度分析： 对 Lighthouse 来说，这篇稿子的意义在于把此前零散的融资消息串成结构判断。DeepSeek 一边开源、一边极限降价，赌的是先铺开发者生态、再从工具链和企业服务里分层变现；月之暗面则更像把 Kimi 做成高融资、高商业化密度的平台，海外收入也被摆到更核心位置。资本市场愿意同时给两种路径高估值，说明中国 AI 竞争已经不再只是“谁模型更强”，而是在押谁能更快长成下一层基础设施、产品入口或全球服务平台。当然，今天新增的仍主要是媒体结构化分析，不是 DeepSeek 融资结构、V4.1 规格或月之暗面细项的正式公告，因此必须保留不确定性。

评论观察：

🟢 支持：它把头部中国模型公司的估值逻辑讲得更透，对理解赛道分化非常有帮助。
🔴 质疑：分析框架再漂亮，最终仍要回到真实收入、算力供给和版本迭代速度，媒体叙事不能替代官方数据。

信源： https://www.36kr.com/p/3807663643828229

关联行动： 继续追 DeepSeek 融资正式落章、月之暗面海外收入与 API 占比，以及两条路线的毛利结构何时更透明。

CN-8. [B] “十五五”算力突围开始被明确提到软件生态与全国算力网短板，国产 AI 竞争的瓶颈正在从“有没有卡”转向“卡能不能被高效用起来”

概述： 虎嗅 05-13 17:44:32 转载中国日报中国观察智库文章，系统梳理中国“十四五”算力发展成果与“十五五”阶段的短板：截至 2025 年 9 月，中国在用算力中心机架总规模突破 1250 万标准机架，智能算力规模达 1053 EFLOPS，算力市场规模达 8351 亿元；但高端芯片、CUDA 级软件生态、跨区域调度与市场化算力协同仍是硬缺口。

技术/产业意义： 这条值 B。因为它不是泛泛谈政策，而是把中国算力竞争的下一阶段矛盾明确指向“软硬协同”和“全国一体化调度”，这对所有国产大模型、芯片和智算中心都直接相关。

深度分析： 过去几年很多讨论都停在“要不要建更多智算中心、要不要多上国产卡”，但真正决定行业效率的，往往是更不性感的部分：框架兼容、开发者迁移成本、算子库、跨区域时延、资源调度和服务市场化。文章把这些问题集中点出来，说明中国 AI 基础设施正在进入第二阶段——不再只是追规模，而是要追“全国范围能否把异构算力高效组织起来”。对 Lighthouse 来说，这会直接影响国产芯片落地、模型训练成本和企业部署体验：如果软件生态和调度网络补不上，再多机架也可能变成低利用率的昂贵资产。

评论观察：

🟢 支持：把中国算力问题从“多建机房”推进到“软硬协同 + 调度网络”层，是更成熟的产业视角。
🔴 质疑：这类顶层判断方向没错，但真正难的是谁来为软件生态迁移和跨区域资源协调持续买单。

信源： https://www.huxiu.com/article/4858048.html

关联行动： 继续追“十五五”算力相关正式规划、全国算力网建设节奏，以及国产软件栈与主流 AI 框架适配的量化进展。

🇪🇺 欧洲区

本轮实际访问并复核了 Mistral / DeepMind / Hugging Face / Stability AI / Aleph Alpha / Poolside / Synthesia / Wayve / Builder.ai / Helsing / Photoroom 等官方入口，以及欧洲融资、EU AI Act、GDPR/数据主权、英国 AI Safety Institute、欧洲数字主权等 dated 检索结果；同时对 @ylecun、@Thom_Wolf、@ClementDelangue、@steipete、@demishassabis、@jeffdean 逐一做了 X / 搜索引擎交叉检查。严格按北京时间 2026-05-13 03:00 之后、原文可读、年份无误、过去 7 天无重复的标准过滤后，最终保留 5 条欧洲区新增。需要明确说明：DeepMind、Stability、Aleph Alpha、Poolside、Synthesia、Wayve、Builder.ai、Helsing、Photoroom 今天都做了实际检查，但没有检出足够硬、且满足 24 小时铁律的官方新增，因而没有硬凑旧闻。

EU-1. ⭐ [B] Mistral 开始向欧洲银行兜售自家网络安全模型，试图把“拿不到 Mythos 预览资格”的监管真空变成自己的主场机会

概述： Bloomberg Law 05-13 15:37:02Z 报道，Mistral 正与欧洲银行讨论部署一款面向网络安全场景的新 AI 模型，定位上直接对应 Anthropic 的 Mythos。报道给出的新增硬信息是：Mistral 这款模型尚未正式发布，但已经进入与欧洲金融机构的实质接触阶段，而欧洲银行在拿不到 Mythos 预览访问资格的情况下，正面临更大的漏洞排查和响应压力。

技术/产业意义： 这条值 B，而且很值得挂 ⭐。因为它不是普通产品迭代，而是欧洲最强模型公司第一次比较明确地把“欧洲拿不到美国最先进安全模型”这个地缘现实，转化成自己的行业切入口。

深度分析： Mythos 之所以敏感，不只是因为它强，而是因为它把 AI 从“写代码、做问答”推进到“主动发现系统脆弱点”的更高权限层。欧洲金融机构如果长期拿不到这类能力，要么继续依赖传统漏洞扫描和红队工具，要么等待本土替代。Mistral 此时切入银行业，说明它正在尝试从通用模型叙事，转到更高单价、更高壁垒的垂直安全模型叙事：一边借“欧洲主权 AI”拿政策与合规顺风，一边借银行业的高安全预算证明商业化能力。更关键的是，这条线如果跑通，Mistral 的价值就不只是 API 厂商，而会升级成欧洲关键基础设施的 AI 安全供应商。

评论观察：

🟢 支持：Mistral 终于不只讲“欧洲要有自己的大模型”，而是在一个最能体现主权价值的高门槛场景上抢位置。
🔴 质疑：从“与银行讨论”到“正式上线并在真实攻防里证明效果”之间，还有很长距离；安全模型最怕 demo 强、实战弱。

信源： https://news.bloomberglaw.com/banking-law/mistral-developing-new-ai-model-for-banks-lacking-mythos-access

关联行动： 继续追 Mistral 会不会很快补出模型发布时间、首批金融客户，或更明确的漏洞发现/修复 benchmark 数据。

EU-2. ⭐ [A] 欧盟就 AI Act 简化修正案达成临时协议，高风险 AI 合规时钟被正式往后拨，机械法规与 AI Act 的边界也开始重画

概述： IAPP 05-13 发布的跟进稿确认，欧洲议会与欧盟理事会已就 AI Act 的简化改革达成 provisional agreement，核心包括推迟原定 8 月 2 日 的高风险系统合规截止点，并把机械领域与 AI Act 的交叠适用边界重新澄清。文中给出的关键新增信息是：未来将出现两个分离的合规时间点，而在与既有机械法规重叠的场景中，AI-specific 的健康与安全义务将更多通过 Machinery Regulation 处理。

技术/产业意义： 这条是标准 A 级。因为 AI Act 一旦改表，不只是欧洲公司，所有想把 AI 系统卖进欧洲市场的模型厂、机器人厂、工业软件厂、医疗与教育系统都要重新排自己的产品、法务和交付节奏。

深度分析： 这次修正释放出两个非常强的信号。第一，欧盟并没有放弃 AI 监管，但承认原来的执行节奏和条文交叠会把产业推向过高摩擦，因此开始做“减阻”而不是简单加码。第二，机械法规与 AI Act 的边界厘清，意味着欧洲正在把“AI 是一个单独法域”改成“AI 嵌入既有行业监管体系”的更现实路线。对创业公司来说，这能降低最混乱的早期解释成本；对大公司来说，则意味着合规不会消失，只会从统一大法条转向更细颗粒度的行业落地。真正会受益的不是最会喊监管口号的人，而是最早把产品分类、风险等级、审计链条和行业规则对齐的团队。

评论观察：

🟢 支持：把 AI Act 从“看上去很完整”往“企业真能执行”推，是欧洲监管开始从姿态转向工程化的一步。
🔴 质疑：时间表后移能缓解企业焦虑，但也可能继续制造解释窗口，给跨国厂商留出更多策略性拖延空间。

信源： https://iapp.org/news/a/eu-agrees-to-amend-ai-act-clarifies-overlap-with-machinery-rules

关联行动： 继续追欧盟会不会很快公布更清晰的双时间表、行业适用清单，以及开源模型和通用模型提供方的最新豁免边界。

EU-3. [B] 伦敦新公司 Recursive Superintelligence 刚出 stealth 就拿下 6.5 亿美元，欧洲 AI 创业开始押注“AI 自我改进”这条更激进的路线

概述： Tech.eu 05-13 12:41:00Z 报道，伦敦注册、伦敦与旧金山双办公室的 Recursive Superintelligence 正式出 stealth，同步披露完成超过 6.5 亿美元 融资、估值约 46.5 亿美元。融资由 GV 和 Greycroft 领投，Nvidia 与 AMD 参投；团队规模不足 30 人，但核心创始人与研究人员来自 UCL、Google DeepMind、Meta、Salesforce 等机构。

技术/产业意义： 这条值 B，但分量很重。它说明资本市场现在已经不满足于“再来一个聊天机器人”，而是在提前押注下一轮更高杠杆的路线：让 AI 直接分析并改进 AI 本身。

深度分析： Recursive 的叙事很激进：不是先从垂直 SaaS 找 PMF，而是从一开始就赌“递归自我改进”是最快通向超人智能的路径。这会带来两层影响。产业层面，欧洲终于不只剩“主权 AI”这一种故事，而出现了与美国 frontier lab 同样激进的研究型创业叙事；资本层面，Nvidia 和 AMD 同时站进 cap table，也说明算力厂商越来越愿意把股权投资当作生态绑定工具。问题在于，这类公司很容易在估值层面跑得比产品更快：如果不能尽快证明自我改进 loop 真能带来可测的模型跃迁，它就会从“新 frontier”迅速变成“新泡沫”。

评论观察：

🟢 支持：欧洲终于出现不只是追赶、而是试图在下一代 AI 研究范式上正面下注的高势能创业公司。
🔴 质疑：<30 人、$650M、self-improving AI 这三个词放在一起，想象空间很大，兑现难度也同样巨大。

信源： https://tech.eu/2026/05/13/recursive-superintelligence-emerges-from-stealth-with-650m-raise/

关联行动： 继续追 Recursive 会不会很快公布首个研究系统、公开技术路线图，或披露更多来自 DeepMind/UCL 的核心研究成员。

EU-4. [B] 罗马尼亚企业软件创业公司 DesignVerse 拿到 550 万美元种子轮，把“用 AI 重写关键基础设施旧系统”直接卖进欧洲空管体系

概述： FinanzNachrichten 转载 05-13 07:06 发布的公告显示，罗马尼亚公司 DesignVerse 完成 550 万美元 种子融资。公司主打用组织文档、内部规则和工程约束自动生成复杂企业软件，已被 EUROCONTROL 采用来升级欧洲空管相关软件，并声称把一个 15 年历史的遗留应用改造周期从预估 6 个月压缩到略多于 1 个月。

技术/产业意义： 这条值 B。它代表的不是“又一个 AI 开发工具”，而是欧洲关键基础设施开始愿意把 AI 生成式软件真正放进 mission-critical modernization 里。

深度分析： DesignVerse 抓到的是一个非常硬的 enterprise modernization 缺口：很多关键系统不是没人想重写，而是业务规则太复杂、文档太散、迁移风险太高。它如果真的能把组织内文档和规则转成稳定的软件生成流程，价值不在炫技，而在把大批“明知必须改、但几年都改不动”的遗留系统拉进自动化升级周期。EUROCONTROL 这个案例尤其重要，因为航空管制是典型的高可靠、强审计、低容错环境——如果 AI 生成的软件能在这里站住脚，对银行、政府、工业控制等场景会产生很强的示范效应。当然，这也意味着它必须把可解释性、验证链、回滚机制做得比一般 AI coding 产品更硬。

评论观察：

🟢 支持：把 AI 生成软件真正打进空管这种关键基础设施，是比“写个 demo app”难得多也有价值得多的商业路径。
🔴 质疑：空管级系统最怕的是隐藏缺陷与验证债务，生成速度快不代表长期维护风险就低。

信源： https://www.finanznachrichten.de/nachrichten-2026-05/68477436-designverse-ai-startup-supporting-europe-s-air-traffic-management-software-upgrade-raises-dollar-5-5m-seed-funding-004.htm

关联行动： 继续追 DesignVerse 后续会不会公开更多欧洲基础设施客户，以及它在验证、审计、回滚上的工程机制。

EU-5. [B] Gartner 预计欧洲主权云 IaaS 支出 2026 年暴增 83%，AI 主权叙事开始从口号切到真金白银的基础设施采购

概述： Computerworld 05-13 15:38:34Z 援引 Gartner 最新预测称，欧洲机构 2026 年在 sovereign cloud IaaS 上的支出将从 2025 年的 69 亿美元 增长到 126 亿美元，同比增幅约 83%；到 2027 年还将进一步升至 231 亿美元。报道把核心驱动解释为地缘政治不确定性叠加对美国 hyperscaler 依赖的焦虑，需求主要来自公共部门、强监管行业和关键基础设施。

技术/产业意义： 这条值 B，而且与 AI 产业直接相关。因为没有主权云，欧洲就很难真正承接本地模型、敏感数据训练、政府与金融 AI 部署这些高价值负载。

深度分析： 主权云过去几年经常被当成抽象概念，但 Gartner 这次给出的不是价值宣言，而是采购预算曲线。对欧洲来说，这意味着“要不要做主权 AI”已经不再停留在政策演讲，而开始体现在云资源、数据驻留、运维权与供应链控制的实际订单上。对 AWS、Azure、Google Cloud 这类美系 hyperscaler，这不是简单的市场教育问题，而是产品架构和合同模型都要改变：谁能把数据边界、控制权、审计权拆得更细，谁才有机会继续吃到欧洲 AI 工作负载。对本地玩家而言，这波预算也未必自动转化成赢家通吃，真正稀缺的是既能满足主权要求、又不把性能和成本做残的能力。

评论观察：

🟢 支持：终于看到欧洲数字主权不只停留在价值观，而是变成具体的基础设施支出曲线。
🔴 质疑：主权云预算上去了，不代表欧洲就能立刻摆脱对美系芯片、云堆栈和开发者生态的深层依赖。

信源： https://www.computerworld.com/article/4129552/gartner-european-spending-on-sovereign-cloud-iaas-to-nearly-double-in-2026.html

关联行动： 继续追欧洲主权云预算会不会很快外溢到本地 GPU 集群、AI inference 托管和政府专有模型采购。

🌐 学术/硬件

本轮实际访问了 arXiv cs.AI / cs.CL / cs.LG / cs.CV / cs.MA / cs.SE / cs.RO recent、Hugging Face Papers 当日热榜、Papers With Code、Reddit r/MachineLearning / r/LocalLLaMA / r/artificial、Raschka / The Batch / Import AI / The Gradient / Lilian Weng / AI Snake Oil，以及 NVIDIA / AMD / Intel / TSMC / AI data center 相关 dated 检索结果。Raschka 今日未检出新文章，/root/.openclaw/workspace/data/raschka-known.json 已更新 lastChecked=2026-05-14。另外需要明确说明：cs.CV / cs.MA / cs.SE / cs.RO 的 recent 页面今天实际可读，但最新分组不在本轮 24 小时窗口内，因此没有为凑数硬收旧论文。

AH-1. ⭐ [B] Shepherd 把“监督另一个 Agent”正式做成可回放、可分叉、可证明的运行时底座，Meta-Agent 终于不再只是 prompt 套娃

概述： arXiv 论文 2605.10913《Shepherd: A Runtime Substrate Empowering Meta-Agents with a Formalized Execution Trace》在 cs.AI 最新分组上线。论文提出一种把 target agent 的全部交互记录为 typed event trace 的运行时底座，并用类似 Git 的执行轨迹支持 fork / replay / intervention。作者给出的关键数字包括：对 agent 进程与文件系统的 fork 速度比 Docker 快约 5x，replay 时 prompt cache 复用率超过 95%，而 live supervisor 在 CooperBench 上把 pair-coding pass rate 从 28.8% 拉到 54.7%。

技术/产业意义： 这条值 B，而且值得挂 ⭐。因为它不是又一个 agent workflow，而是在给“agent 监督 agent、agent 改 agent”补运行时语义层。

深度分析： 现在很多多 Agent 系统的问题，不是不会调度，而是没有可靠、可回放、可审计的执行层，所以一旦中途插手、分叉尝试或做 counterfactual exploration，就会迅速失真。Shepherd 的价值在于把 meta-agent 操作从 prompt 技巧抬升为形式化的运行时对象：每次工具调用、环境交互、状态演化都可被追踪、重放、分支化处理。这会直接影响两个方向：第一，训练与评测上，agent 不再只能在单一路径上成败一次，而可以系统地做分叉探索；第二，生产系统里，人类或上层 agent 可以更安全地介入和修正下层执行轨迹。对 Agent 工程来说，这种“操作系统层”的工作，长期重要性可能比再堆几个规划 prompt 更大。

评论观察：

🟢 支持：它真正触碰到了 agent 系统最缺的基础设施——可追踪、可干预、可复现的运行时。
🔴 质疑：形式化和运行时优雅不等于落地简单，大规模真实工具链接入后，复杂度和开销可能迅速上升。

信源： https://arxiv.org/abs/2605.10913

关联行动： 值得继续跟踪是否会有开源实现、以及它在 SWE / browser / research agent 上的可迁移性验证。

AH-2. ⭐ [B] WildClawBench 直接把真实 CLI 运行时拉进 benchmark，Agent 评测开始从“玩具沙盒”逼近“真生产环境”

概述： arXiv 2605.10912《WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation》提出一个 native-runtime benchmark，覆盖 60 个人写、双语、多模态、长时程任务。论文摘要强调，单任务平均 wall-clock 约 8 分钟、平均工具调用超过 20 次，运行环境是真实 CLI agent harness 与可复现实验容器，而不是模拟 API 或短链条问答。

技术/产业意义： 这条值 B，且很适合挂 ⭐。因为行业今天最缺的不是更多 GSM8K 式小题，而是“Agent 到底能不能在真实终端里连续把活干完”的评测基线。

深度分析： WildClawBench 的关键不是任务数量，而是评测哲学转向：它不再满足于最后答案对不对，而是在看 agent 在真实 runtime 里能否持续调用工具、应对多步依赖、处理长上下文和真实文件系统。这对 Lighthouse、coding agent、research agent 都非常贴近现实。更重要的是，benchmark 的 bilingual / multimodal 设计也意味着未来 agent 评测不能再默认“英语 + 纯文本 + 单回合”是世界全貌。如果这类 benchmark 继续成熟，未来模型和 agent 框架吹性能时，越来越难只靠玩具任务刷分糊弄过去。

评论观察：

🟢 支持：终于有人把 agent benchmark 从“短题答卷”往“真实工具劳动”拉了一大步。
🔴 质疑：60 个任务仍偏小，而且真实世界的网络波动、权限限制、外部服务噪声未必完全被覆盖。

信源： https://arxiv.org/abs/2605.10912

关联行动： 值得继续跟踪是否会开放 leaderboard，以及主流 agent 框架在该 benchmark 上的真实差距。

AH-3. [B] DECO 试图把 MoE 从“参数很大但边端难跑”改成“在同参数预算下逼近 dense Transformer”，边缘部署终于不再只剩蒸馏一条路

概述： arXiv 2605.10933《DECO: Sparse Mixture-of-Experts with Dense-Comparable Performance on End-Side Devices》提出面向端侧设备的稀疏 MoE 架构。论文核心论点是：传统 MoE 虽然计算稀疏，但总参数量和内存访问模式仍严重拖累端侧部署，因此作者用可学习 expert-wise scaling 增强的 ReLU routing 去平衡 routed experts 与 shared experts 的贡献，目标是在相同总参数预算和训练 token 下逼近 dense Transformer 性能。

技术/产业意义： 这条值 B。因为边端 AI 的核心矛盾从来不只是 FLOPs，而是存储、带宽、随机访存和功耗；DECO 正面打的就是这几个痛点。

深度分析： 过去大家一提 MoE，就默认适合大集群、不适合手机和端侧，因为专家参数虽然不全算，但总得放得下、取得到。DECO 代表一种有意思的方向：不是回头拥抱纯 dense，也不是简单裁掉参数，而是重做 routing 与 shared capacity 的平衡，让 MoE 在总账上更像端侧友好结构。如果这条路线成立，未来边缘模型设计可能不需要在“dense 小模型”和“云上大 MoE”之间二选一，而能出现更细的中间层。它对本地 AI PC、机器人控制器、车端推理都值得盯。

评论观察：

🟢 支持：端侧 MoE 一直缺真正像样的结构创新，DECO 至少在系统约束上是对题的。
🔴 质疑：摘要里主要强调结构思想，真正跨芯片、跨任务的系统级收益还需要更细 benchmark 才能坐实。

信源： https://arxiv.org/abs/2605.10933

关联行动： 继续追作者是否公开更完整的 latency / memory / energy 对比，尤其是在移动或嵌入式芯片上的结果。

AH-4. ⭐ [B] SenseNova-U1 把“理解”和“生成”统一进同一套 NEO-unify 架构，统一多模态模型路线又被往前推了一步

概述： Hugging Face Papers 05-13 热榜与 arXiv 新文 2605.12500 同步出现《SenseNova-U1: Unifying Multimodal Understanding and Generation with NEO-unify Architecture》。论文认为当前 VLM 仍被“理解”和“生成”两套分裂架构拖累，因此提出 native unified multimodal paradigm，并发布 SenseNova-U1-8B-MoT 与 SenseNova-U1-A3B-MoT 两个统一变体。

技术/产业意义： 这条值 B，且够挂 ⭐。因为多模态系统现在最大的结构性问题之一，就是 caption / QA / reasoning 一套栈，图像或视频生成又是另一套栈，表示空间、训练目标和推理流程全都割裂。

深度分析： 一体化多模态并不只是“把能看图和会画图绑在一起”，而是要让模型把 perception 与 generation 当成同一底层世界模型的不同投影。SenseNova-U1 的价值，在于它明确把这种统一当作结构目标，而不是推理时做多模型拼接。如果这条路线成功，未来多模态 agent 在做 GUI 操作、视觉检索、图像编辑、视频任务时，能少掉大量模块切换与表示对齐成本。它对 agent、创作工具和具身系统都很关键。当然，这条路也更难训，因为统一架构往往更容易在单项任务上不如专门模型尖锐。

评论观察：

🟢 支持：统一多模态是长线大方向，谁先把理解/生成割裂问题打穿，谁就更接近真正的 native multimodal intelligence。
🔴 质疑：统一架构常见问题是“什么都能做一点，但单点不够极致”，真正能否压过专用栈还要看全面评测。

信源： https://arxiv.org/abs/2605.12500

关联行动： 值得继续跟踪该模型是否开源权重或 demo，以及它在多模态理解/生成联合 benchmark 上的具体成绩。

AH-5. [B] δ-mem 用一个极小在线状态矩阵给长记忆助手补“外接脑”，长上下文竞赛开始从拼窗口转向拼记忆机制

概述： Hugging Face Papers 热榜中的 arXiv 2605.12357《δ-mem: Efficient Online Memory for Large Language Models》提出一种轻量级在线记忆机制：在冻结的 full-attention backbone 之外，维护一个固定大小的 associative memory state，并用 delta-rule 学习实时更新。摘要给出的关键点是，只用一个 8×8 的在线记忆状态矩阵，就能在长期上下文利用上带来明显收益。

技术/产业意义： 这条值 B。因为大家现在都在吹百万上下文，但真正的长期助手与 Agent 更需要的是“记住什么、怎样高效复用”，而不是无脑把所有历史一直塞回 prompt。

深度分析： δ-mem 的思路很像给大模型外挂一个极小但持续演化的状态空间，用它来承接过去信息的高密度摘要，再通过低秩修正去影响后续 attention。它的重要性在于告诉行业：长期记忆不一定非得靠更长 context window、更多 KV cache，也可以通过显式在线状态把历史压缩成更有用的结构。如果这条方向继续成熟，未来个性化助手、边端 Agent 和多轮工作流会更容易在成本可控的前提下维持“持续记忆”。

评论观察：

🟢 支持：这是对“长上下文=长期记忆”这类偷换概念的正面纠偏。
🔴 质疑：极小状态矩阵虽然优雅，但在真实世界复杂用户画像和长期任务上是否足够，仍要看外部验证。

信源： https://arxiv.org/abs/2605.12357

关联行动： 继续追 δ-mem 是否会给出更完整的长期助手 benchmark，尤其是与 RAG / retrieval memory 的正面对比。

AH-6. [B] ToolCUA 正面解决 Computer Use Agent 的“该点 GUI 还是该走工具调用”路线选择问题，混合行动空间终于开始被系统建模

概述： arXiv 2605.12481《ToolCUA: Towards Optimal GUI-Tool Path Orchestration for Computer Use Agents》关注的不是单个动作质量，而是 CUA 在 GUI 操作与高层工具调用之间何时切换、如何选择最优执行路径。论文提出 staged training paradigm 来学习 interleaved GUI-tool path selection，并强调现有数据集缺乏高质量的混合轨迹监督。

技术/产业意义： 这条值 B。因为今天几乎所有“会用电脑”的 Agent 都有同一个痛点：理论上既能点按钮也能调 API，实际却经常在低效 GUI 路径上兜圈，或者过度依赖工具导致流程脆弱。

深度分析： ToolCUA 的价值在于把“路径编排”从启发式规则提升为训练目标。现实世界里，最佳执行路径往往不是纯 GUI，也不是纯工具，而是两者混合：例如先通过 GUI 发现上下文，再用工具批量处理文件，最后回 GUI 做确认。谁能把这套切换逻辑学稳，谁的 computer-use agent 才真正有机会从 demo 进化到生产工具。这篇工作对桌面 agent、browser agent、企业自动化都非常贴近。

评论观察：

🟢 支持：它碰到的是 CUA 最真实的效率痛点，比单纯刷 GUI benchmark 更接近实战。
🔴 质疑：真实企业软件和开放网页的交互分布太复杂，训练出来的路径选择器是否足够泛化仍待检验。

信源： https://arxiv.org/abs/2605.12481

关联行动： 值得继续观察是否会放出训练数据或 benchmark，以及与 browser-use / computer-use 主流框架的结合效果。

AH-7. [B] ThinC 让代码本身承担推理职责，不再把代码只当“最后核对器”，工具推理链开始往更强结构化迁移

概述： arXiv 2605.07237《Teaching Language Models to Think in Code》提出 ThinC（Thinking in Code）框架，核心做法是：只保留极简自然语言计划步骤，之后让模型主要通过代码块和执行输出来展开推理，而不是在自然语言与代码之间来回切换。作者基于 12.2k code-centric trajectories 做蒸馏，目标是提升数学与工具推理稳定性。

技术/产业意义： 这条值 B。因为它触碰到一个正在变得越来越现实的问题：当工具使用越来越强时，最可靠的 reasoning substrate 可能不再是自然语言，而是可执行代码。

深度分析： 传统 tool-integrated reasoning 往往还是“先用自然语言想，再让代码辅助验证”，于是中间步骤很容易产生自然语言漂移、重复推理或伪解释。ThinC 反过来让代码成为主推理介质，这会显著提升中间状态的可验证性、可执行性和错误定位能力。它尤其适合数学、数据处理、程序分析这类天然能被代码承载的任务。长远看，这类工作也在重新定义 CoT：未来高质量推理轨迹不一定是更长的文字，而可能是更干净的程序执行链。

评论观察：

🟢 支持：把代码从“辅助工具”升级为“主要思维介质”，很可能是 agent 化推理的重要方向。
🔴 质疑：不是所有领域都能被代码自然表示，框架跨到开放知识和模糊任务时可能受限。

信源： https://arxiv.org/abs/2605.07237

关联行动： 继续追 ThinC 在数学以外任务上的迁移结果，以及它对 coding agent / data agent 的实际增益。

AH-8. ⭐ [B] RubricEM 把 deep research agent 的强化学习从“结果对不对”改成“按 rubric 分阶段学”，后训练终于开始贴近真实研究工作流

概述： arXiv 2605.10899《RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards》针对 deep research agent 的一个根问题开刀：这类任务通常没有标准答案、轨迹又很长，传统 verifiable reward 很难直接训。论文提出用 rubric 作为共享接口，把 policy execution、judge feedback 与 agent memory 串起来，以 stagewise 的方式训练长链条研究 agent。

技术/产业意义： 这条值 B，且值得挂 ⭐。因为它不是单纯换一个 reward trick，而是在重新定义“研究型 agent 应该怎么被训练与评价”。

深度分析： 研究 agent 与数学题 agent 最大的不同，是它的高质量输出常常来自多轮搜索、筛证、写作与修订，而不是一次性命中唯一答案。RubricEM 把 rubric 从“最后打分器”提升为贯穿执行、反馈和记忆的中间层，本质是在给深研究 agent 建一套更像真人导师制的训练接口。这种做法如果有效，能显著提高长链条任务中经验复用的效率，也更适合新闻研究、企业情报、法律分析等非确定性任务。对 Lighthouse 这种“搜、筛、写、改”工作流来说，这类论文尤其值得盯。

评论观察：

🟢 支持：终于有人认真对待 deep research agent 的训练难点，而不是拿短答 benchmark 硬套到长报告任务上。
🔴 质疑：rubric 质量本身会变成新的瓶颈，若 rubric 设计失真，模型可能学会讨好评分而不是真的提高研究能力。

信源： https://arxiv.org/abs/2605.10899

关联行动： 值得持续跟踪它与现实 deep research product 的结合方式，以及是否会公布更完整的 rubric 设计范式。

AH-9. [B] SPAN 想把 8000 个“后院微型节点”拼成分布式 AI 算力网络，AI 基建开始出现与传统超级数据中心完全不同的落地形态

概述： Network World 05-13 16:50:40Z 报道，智能配电公司 SPAN 与 Nvidia、PulteGroup 合作，试图把名为 XFRA 的微型数据中心节点部署到住宅或小型商业地点附近，而不是继续只押大型集中式数据中心。文中给出的关键数字包括：SPAN 声称可部署 8000 个 XFRA 节点，以约 6x 更快、5x 更低成本的方式，拼出相当于典型 100MW 中心化数据中心的容量；单节点硬件包含 16 张 RTX6000、4 颗 AMD Epyc 与 3TB DDR5。

技术/产业意义： 这条值 B。它代表的不是常规 GPU 新品，而是 AI 算力组织方式的潜在分叉：未来并非所有推理/训练负载都一定要去巨型园区化数据中心。

深度分析： 这条路线抓住了 AI 基建眼下最现实的约束：不是人人都缺芯片，很多时候是缺并网电力、缺配电能力、缺社区许可。SPAN 想利用住宅已有但长期闲置的电力冗余，把分散节点拼成一张更灵活的推理网络，这会带来三个潜在变化。第一，算力部署可能从“找地建园区”转向“找可用电力碎片”；第二，边缘推理与区域性低时延任务会更受益；第三，AI 基建会更像电网与边缘基础设施，而不只是房地产项目。风险当然也很直白：噪音、散热、运维、安全和邻避问题，一个都绕不过去。

评论观察：

🟢 支持：当传统数据中心越来越难拿电、拿地、拿社区许可时，这类分布式方案很可能会从边缘奇招变成真备选。
🔴 质疑：从原型到规模化商业网络，中间隔着电力调度、运维复杂度和社区接受度三座大山。

信源： https://www.networkworld.com/article/4170966/startup-span-teams-with-nvidia-to-put-data-center-nodes-in-your-backyard.html

关联行动： 继续追 XFRA 真实部署规模、负载类型，以及 Nvidia 在这类分布式推理网络里的生态绑定打法。

AH-10. [B] TSMC 2nm 成本开始把旗舰 SoC 价格顶到 300 美元以上，边缘 AI 设备的算力升级正在被先进制程账单反向约束

概述： TrendForce 05-13 发布快讯称，Qualcomm 下一代 Snapdragon 8 Elite Gen 6 Pro 在 TSMC 2nm 节点上报价可能超过 300 美元，若再叠加 LPDDR6 与 UFS 5.0，整套 BOM 成本可能超过 600 美元。报道同时指出，MediaTek 等设计公司也会受到 2nm / N2P 迁移带来的类似压力。

技术/产业意义： 这条值 B。虽然它表面是手机 SoC 成本，但对 AI 行业的含义很直接：端侧 AI 的上限不只由模型压缩决定，也被最先进晶圆节点、封装与内存价格一起锁住。

深度分析： 过去一年大家热衷于谈“AI 会把推理搬到端上”，但真正决定端侧能否普及的，不只是 NPU TOPS，而是整机厂能不能承受先进节点带来的成本爆炸。2nm 一旦把旗舰 SoC 拉到 300 美元+，手机、AI PC、可穿戴和机器人控制器的产品分层就会进一步撕裂：高端机能更早拿到更强本地模型，主流价位段则可能被迫延长旧节点生命周期，或者转向混合云端推理。这也说明 TSMC 不只是代工厂，而是在通过先进制程的供给与定价，间接决定边缘 AI 能以多快速度进入大众市场。

评论观察：

🟢 支持：把 2nm 成本压力摆到台面上，有助于行业更现实地看待“端侧 AI 普及”的节奏。
🔴 质疑：目前仍是供应链与媒体口径，真正量产价格、良率和 OEM 接受度还要等后续更硬的数据验证。

信源： https://www.trendforce.com/news/2026/05/13/news-snapdragon-8-elite-gen-6-pro-reportedly-priced-above-us300-on-tsmc-2nm-risking-adoption/

关联行动： 继续追 TSMC 2nm / CoWoS 供给与报价变化，以及 Qualcomm、MediaTek 是否会调整 2026 旗舰芯片组合来对冲端侧 AI 成本压力。

下期追踪问题

百度会不会在 Create 2026 之后很快补出 DAA 的统一统计口径、DuMate 实际任务完成率，以及秒哒企业版的首批生产级客户案例？
林俊旸的新公司会不会在未来 24-72 小时内披露正式名称、首个产品方向，或者更明确的 Agentic Thinking 技术栈？
快手分拆可灵之后，会不会继续补出投资人名单、融资结构、时间表，以及可灵独立运营后的 KPI 边界？

上期追踪问题回应
🇨🇳 中国区
CN-1. ⭐ [A] 百度在 Create 2026 正式抛出 DAA 指标，并把 DuMate、秒哒、一镜、伐谋打包成“智能体自我进化”主线
CN-2. [B] 百度把秒哒 3.0 推到“直接生成 APP + 手机端即做即发”，AI Coding 正从 Demo 工具转向生产级应用工厂
CN-3. [B] 高德与千问 C 端应用团队开源 AGenUI，把原生 A2UI 从协议层推进到真正能在 iOS/安卓/鸿蒙跑起来的端侧基础设施
CN-4. [B] 前 Qwen 负责人林俊旸被曝创业、种子轮目标估值 20 亿美元，中国 Agent 创业开始直接按硅谷顶格预期定价
CN-5. [B] 基流科技冲刺港股 IPO，把“中国最大独立 AI 算力集群提供商”故事推到资本市场正面答辩阶段
CN-6. [B] DeepSeek 特殊 token 注入被大规模复现，这不是“数据泄露”，而是 Agent/聊天系统协议边界正在被真实用户压力测试
CN-7. [B] 更新：DeepSeek 与月之暗面的新融资，被 36Kr 明确写成“中国大模型两种活法”的估值分叉
CN-8. [B] “十五五”算力突围开始被明确提到软件生态与全国算力网短板，国产 AI 竞争的瓶颈正在从“有没有卡”转向“卡能不能被高效用起来”
🇪🇺 欧洲区
EU-1. ⭐ [B] Mistral 开始向欧洲银行兜售自家网络安全模型，试图把“拿不到 Mythos 预览资格”的监管真空变成自己的主场机会
EU-2. ⭐ [A] 欧盟就 AI Act 简化修正案达成临时协议，高风险 AI 合规时钟被正式往后拨，机械法规与 AI Act 的边界也开始重画
EU-3. [B] 伦敦新公司 Recursive Superintelligence 刚出 stealth 就拿下 6.5 亿美元，欧洲 AI 创业开始押注“AI 自我改进”这条更激进的路线
EU-4. [B] 罗马尼亚企业软件创业公司 DesignVerse 拿到 550 万美元种子轮，把“用 AI 重写关键基础设施旧系统”直接卖进欧洲空管体系
EU-5. [B] Gartner 预计欧洲主权云 IaaS 支出 2026 年暴增 83%，AI 主权叙事开始从口号切到真金白银的基础设施采购
🌐 学术/硬件
AH-1. ⭐ [B] Shepherd 把“监督另一个 Agent”正式做成可回放、可分叉、可证明的运行时底座，Meta-Agent 终于不再只是 prompt 套娃
AH-2. ⭐ [B] WildClawBench 直接把真实 CLI 运行时拉进 benchmark，Agent 评测开始从“玩具沙盒”逼近“真生产环境”
AH-3. [B] DECO 试图把 MoE 从“参数很大但边端难跑”改成“在同参数预算下逼近 dense Transformer”，边缘部署终于不再只剩蒸馏一条路
AH-4. ⭐ [B] SenseNova-U1 把“理解”和“生成”统一进同一套 NEO-unify 架构，统一多模态模型路线又被往前推了一步
AH-5. [B] δ-mem 用一个极小在线状态矩阵给长记忆助手补“外接脑”，长上下文竞赛开始从拼窗口转向拼记忆机制
AH-6. [B] ToolCUA 正面解决 Computer Use Agent 的“该点 GUI 还是该走工具调用”路线选择问题，混合行动空间终于开始被系统建模
AH-7. [B] ThinC 让代码本身承担推理职责，不再把代码只当“最后核对器”，工具推理链开始往更强结构化迁移
AH-8. ⭐ [B] RubricEM 把 deep research agent 的强化学习从“结果对不对”改成“按 rubric 分阶段学”，后训练终于开始贴近真实研究工作流
AH-9. [B] SPAN 想把 8000 个“后院微型节点”拼成分布式 AI 算力网络，AI 基建开始出现与传统超级数据中心完全不同的落地形态
AH-10. [B] TSMC 2nm 成本开始把旗舰 SoC 价格顶到 300 美元以上，边缘 AI 设备的算力升级正在被先进制程账单反向约束
下期追踪问题