2026-05-11 AI 日报
2026-05-11 AI 日报
上期追踪问题回应
-
DeepSeek 会不会在接下来 24-72 小时内确认 500 亿元融资结构、梁文锋个人出资比例,以及 V4.1 的多模态 / MCP / 图像理解路线图?
- 今天中国区继续实际访问了 DeepSeek 官网、DeepSeek 相关搜索入口、36Kr、量子位、虎嗅等源。过去 24 小时里能看到的新增内容,仍然主要是围绕融资的二级市场分析与生态侧延展(例如本地部署、资本清场、头部估值抬升),没有拿到 DeepSeek 官方对“500 亿元融资结构、梁文锋具体出资比例、V4.1 多模态/MCP 路线图”的正式确认。也就是说,这条追踪问题今天只得到“市场继续加码讨论、官方仍未落锤”的回应。
-
百度在 Create 2026 前夕会不会继续补出文心 5.1 的 API 定价、企业客户案例、搜索/Agent 详细 benchmark,或者同步放出更多文生图/多模态更新?
- 今天实际检查百度相关搜索入口与中文媒体后,未见 24 小时窗口内新增的官方硬信息来补齐 API 定价、企业客户案例或更细 benchmark。当前新增讨论更多停留在资本市场和行业二次解读层,这条追踪问题今日无实质新进展。
-
讯飞“灵犀·星火智盒”、商汤 Token Plan、阶跃 StepAudio 2.5 三条“Token 经济 + 语音/终端/工作流”路线,谁会先公布更硬的价格、延迟、日活或企业部署数据?
- 中国区今天继续实际访问讯飞、商汤、阶跃相关入口与中文科技源,但 24 小时窗口内仍未看到比前一日更硬的新官方数字。换句话说,价格、延迟、日活、企业部署数据这四类关键指标今天都没有新增实锤,这条追踪问题继续保持开放。
🇨🇳 中国区
本轮实际访问并复核了 DeepSeek 官网、Qwen 官方博客(浏览器降级)、智谱模型文档、Kimi 官网、机器之心首页(浏览器降级)、36Kr AI、量子位、虎嗅前沿科技、华为新闻、ModelScope,以及针对 DeepSeek / Qwen / 豆包 / 智谱 / Kimi / 百度 / 腾讯混元 / MiniMax / 零一万物 / 面壁 / 阶跃 / 百川 / 昆仑 / 商汤 / 讯飞 / 小米 / 昇腾 / 寒武纪 / 海光 / 摩尔线程 / 政策 / 融资 / 智算中心等话题的 dated 搜索入口。严格按北京时间 24 小时窗口、过去 7 天去重与 A/B 级过滤后,最终保留 8 条中国区新增。需要明确说明:DeepSeek、Qwen、智谱、Kimi、混元、昇腾等官方入口本轮没有检出能在 24 小时内稳定核验、且值得独立入库的新官方正文,因此没有硬凑旧闻。
CN-1. ⭐ [A] 浙大与腾讯优图提出 AdaMARP,让 AI 角色扮演从“会说话”升级到“会导演、会换景、会调度多角色”
概述: 量子位 05-11 00:26:14 报道,浙江大学联合腾讯优图实验室提出 AdaMARP(Adaptive Multi-Agent Interaction Framework for General Immersive Role-Playing),核心是用四通道消息格式与场景管理器,把角色、环境、动作和动态引入新角色统一编排,使大模型在沉浸式叙事里不再只是单轮聊天,而能完成多角色调度、场景切换与环境感知。文章同时给出硬信息:该工作已被 ACL 2026 接收。
技术/产业意义: 这条值 A,也够资格挂 ⭐。因为它切中的不是“再做一个聊天角色壳子”,而是 Agent 叙事系统里最难的导演层:如何让多角色、多场景、动态事件在同一套交互协议里稳定运行。
深度分析: AdaMARP 最值得看的点有三层。第一,它把角色扮演从“prompt 扮演人设”推进到了“结构化多智能体交互”,四通道消息格式本质上是在给叙事行为加协议层。第二,场景管理器意味着系统能处理人物进出、环境变化和状态切换,这让它更接近游戏 NPC、教育模拟、心理陪伴和虚拟社交的生产级底座。第三,ACL 2026 接收说明这不是纯产品包装,而是已有学术共同体认可的研究输出。对中国团队来说,这种把多智能体、交互协议和应用叙事绑在一起的工作,比单纯卷 benchmark 更接近下一代 AI 原生交互形态。
评论观察:
- 🟢 支持:它真正解决的是“多角色系统如何不乱套”的底层问题,落地潜力比单点角色聊天大得多。
- 🔴 质疑:论文被接收不等于产品就稳定可用,复杂长时叙事下的 token 成本、状态漂移和角色一致性仍要看真实系统验证。
信源: https://www.qbitai.com/2026/05/415048.html
关联行动: 继续追 AdaMARP 是否放出论文、代码或 demo,以及腾讯优图会不会把这套交互框架并入更大的 Agent / 游戏 /教育产品线。
深度解读: /ai-research/news/2026-05-11/deep-adamarp-immersive-role-playing/
CN-2. ⭐ [A] 浙大校友用 AI 把 32 年没动的拉姆齐数下界再推一步,且全过程只用 CPU 服务器 + 代码 Agent
概述: 量子位 05-10 12:01:40 报道,浙大校友王宜平借助自研 AI 框架 ScaleAutoResearch-Ramsey,将拉姆齐数 R(3,17) 下界从 92 提升到 93,同时把 R(4,15) 下界刷新到 160;文章强调,整个攻关没有依赖大规模 GPU 集群,而是使用 Claude Code、Codex 与 1 台 CPU 服务器完成,且成果已全量开源。
技术/产业意义: 这条是标准 A 级,也值得挂 ⭐。因为它不只是“AI 帮数学家提效”,而是直接在一个 32 年未推进的组合数学经典问题上给出新下界,说明代码 Agent + 搜索/验证框架已经能进入真正的科研发现流程。
深度分析: 这件事重要在三个地方。第一,拉姆齐数问题长期以搜索空间爆炸著称,AI 在这里的价值不是生成漂亮解释,而是把搜索策略、候选构造和验证流程自动化。第二,硬件侧只用 CPU 服务器,说明在某些科学发现任务上,真正稀缺的未必是大算力,而是高质量搜索框架和可靠的程序化验证链。第三,成果开源意味着国内团队没有把这当成一篇秀肌肉论文,而是在尝试把“AI for math discovery”做成可复用方法论。对中国 AI 生态来说,这比一般的榜单分数更有象征意义:它展示的是科研生产力工具链正在变硬。
评论观察:
- 🟢 支持:能在 32 年未推进的问题上交出新结果,说明 Agent 在数学发现里已经开始从辅助走向共创。
- 🔴 质疑:这类案例很强,但仍偏特定问题族,距离普适的“AI 科研自动机”还有明显距离。
信源: https://www.qbitai.com/2026/05/415031.html
关联行动: 继续追 ScaleAutoResearch-Ramsey 的代码仓库、可复现实验细节,以及它能否扩展到更多组合数学或定理搜索任务。
深度解读: /ai-research/news/2026-05-11/deep-scaleautoresearch-ramsey/
CN-3. [B] DeepSeek V4 Flash 被开源推理引擎 ds4 装进 128GB 苹果本,本地 Agent 成本被直接打穿
概述: 36Kr 05-10 15:44 报道,Redis 作者 antirez 发布了专为 DeepSeek V4 Flash 编写的推理引擎 ds4,用几千行 C 代码把原本 FP16 形态需要超大内存/显存的模型压到 128GB 内存的 MacBook Pro 上可运行,使开发者能在本地跑代码、读上下文和做 Agent 任务,而不必持续支付云端 token 费用。
技术/产业意义: 这条值 B。它虽然不是 DeepSeek 官方发版,但对中国开源模型生态是很强的外部验证:海外顶级系统程序员开始围绕 DeepSeek 定向重写推理栈,说明这个模型已经不仅是“能用”,而是值得别人为它单独造基础设施。
深度分析: ds4 的意义在于把“模型开源”推进成“可负担的个人 Agent 计算”。DeepSeek V4 Flash 之所以适合被塞进本地设备,是因为它在参数规模、激活参数和上下文能力之间处在一个微妙平衡点:足够强,值得折腾;又没有强到只能死守数据中心。对行业来说,这会带来两层变化:一是本地 Agent、离线企业助手和数据敏感场景会更愿意基于 DeepSeek 试验;二是中国开源模型的竞争焦点会越来越从 benchmark,转向“有没有人愿意为你写推理引擎、做系统优化、补工程生态”。
评论观察:
- 🟢 支持:第三方顶级工程师为 DeepSeek 单独写引擎,本身就是模型生态吸引力的强信号。
- 🔴 质疑:本地跑起来不等于生产级可用,稳定性、吞吐、量化精度损失和真实 Agent 成功率还要继续看。
信源: https://www.36kr.com/p/3803167337783561
关联行动: 继续追 ds4 的开源仓库、量化方案、吞吐指标,以及是否会带动更多针对 DeepSeek 的本地推理优化分支。
CN-4. [B] 豆包开始给高级能力挂价格,国内最大 AI 原生应用把“免费获客”切到“分层变现”
概述: 36Kr 05-10 12:43 报道,字节旗下豆包已在 App Store 上线订阅制,标准版 68 元/月、加强版 200 元/月、专业版 500 元/月,同时保留基础免费服务;付费能力主要指向 PPT 生成、数据分析、影视制作等高算力生产力场景。文章给出的判断是:这不是一次小收费测试,而是国内大模型从流量扩张转向价值变现的信号。
技术/产业意义: 这条值 B,而且很有行业风向标意义。因为豆包不是小厂试水,而是月活规模最大的中国 AI 原生产品之一;当它开始认真切价格层级,说明国内 ToC 大模型已经不想再单靠补贴和讲故事支撑增长。
深度分析: 豆包收费的重要性在于它把“谁用户多”变成了“谁能证明高频重度用户愿意付钱”。三档价格本质上对应三种用户结构:轻度聊天、强化创作、专业生产。对行业来说,这会逼着所有头部产品回答两个问题:第一,哪些能力值得单独收费,哪些能力只能当免费漏斗;第二,模型调用成本如何和用户价值匹配。字节现在敢收钱,也说明它对自身流量入口和产品粘性有一定把握。更深一层看,这会加速中国大模型从“功能竞赛”走向“ARPU 与毛利率竞赛”。
评论观察:
- 🟢 支持:头部产品先开价,有助于把国内 AI 市场从无底线补贴拉回到可持续商业化讨论。
- 🔴 质疑:如果用户感知不到显著能力差异,订阅制很容易变成舆论反噬和流失压力。
信源: https://www.36kr.com/p/3802970281041408
关联行动: 继续追豆包订阅权益边界、转化率,以及字节会不会把收费逻辑进一步扩展到 Coze / 企业侧 Agent 能力。
CN-5. [B] 阿里要把通义千问直接嵌进淘宝,把对话式购物做成大规模交易入口
概述: 新浪财经 05-10 15:07 转载路透口径称,阿里巴巴计划将通义千问与淘宝整合,用对话交互替代传统关键词搜索,让用户在同一轮对话里完成商品浏览、比价、下单,并接入淘宝、天猫超 40 亿商品库以及物流、售后等全流程服务。
技术/产业意义: 这条值 B,而且非常值得盯。因为它不是再给聊天机器人塞个购物插件,而是阿里试图把自家底座模型和中国最大交易场景之一做深绑定,把 AI 直接推进交易链路中心。
深度分析: 这件事真正的分量在于“搜索入口 → 决策入口 → 交易入口”的迁移。以往电商搜索是关键词式的,用户自己筛选、比价、对照评论;对话式购物则意味着模型要承担部分商品理解、偏好建模、推荐排序甚至售后解释职责。对阿里来说,通义千问一旦吃到淘宝的超大规模商品图谱、订单与服务链路,它就不再只是一个模型品牌,而会成为交易操作系统的一部分。对行业来说,这会把中国电商 AI 竞争从客服/内容生成,提升到“谁能控制真实消费决策界面”的层级。
评论观察:
- 🟢 支持:阿里手里同时有底座模型、商品库和交易闭环,这是做对话式购物最完整的结构优势。
- 🔴 质疑:模型一旦介入排序与推荐,幻觉、偏置和错误下单的责任边界会立刻变成难题。
信源: https://finance.sina.cn/2026-05-10/detail-inhxkxuf2825362.d.html?vt=4
关联行动: 继续追阿里是否正式公布上线时间、首批开放范围,以及通义千问在淘宝场景里的推荐与售后规则。
CN-6. [B] 可灵把 ARR 做到 3 亿美元级,但“Sora 退场、可灵赚钱”并不等于中国视频模型已经稳赢
概述: 虎嗅 05-10 22:09 发文复盘 AI 视频赛道,文中给出的新增硬信息是:OpenAI 的 Sora 已悄然退场,而快手可灵 AI 截至今年 1 月 ARR 已突破 3 亿美元,且 2026 年收入预计继续翻倍增长;但即便如此,市场仍在质疑赛道商业闭环与护城河问题,快手股价也未因可灵的收入能力而获得稳定重估。
技术/产业意义: 这条值 B。它的重要性不在“可灵又涨了一个数”,而在于它把中国视频生成模型拉出单纯技术秀场,进入真正残酷的商业检验阶段:能赚钱,不代表资本就认可你能长期守住价值。
深度分析: 可灵的强项是可控、可商用、适合广告与电商内容生产,这跟 Sora 追求世界模拟和电影级生成是两条不同路线。虎嗅这篇文章实际上点出了中国视频模型更现实的生存逻辑:先活在生意里,再谈更远的 AGI 叙事。问题在于,这条路同样有“跑步机效应”——你必须不断加算力、加模型、加产品功能,但如果行业没有足够强的网络效应和转换成本,所有人都会越来越卷,利润反而未必同步释放。可灵因此既是中国视频 AI 的样板,也是这条赛道商业天花板的压力测试。
评论观察:
- 🟢 支持:可灵能把视频模型做出 3 亿美元级 ARR,说明中国厂商已经证明了内容生产场景的真实付费需求。
- 🔴 质疑:收入快速增长并不自动代表长期护城河成立,视频模型仍然面临高投入、低壁垒和强同质化风险。
信源: https://www.huxiu.com/article/4857216.html
关联行动: 继续追可灵后续是否披露更多企业客户结构、毛利率和电商/广告场景留存数据。
CN-7. [B] “三天超 70 亿美元”后,中国大模型融资开始进入清场前夜
概述: 36Kr 05-10 09:50 发文指出,最近三天中国大模型赛道同时出现 Kimi、阶跃星辰、DeepSeek 三路大额融资推进,合计超过 70 亿美元,行业叙事也从“模型能力更强”迅速切换到“谁卡住了终端、供应链、产业链和战略资源”。文章的核心判断是:资本已不再雨露均沾,而是在为少数头部玩家提前配发生存筹码。
技术/产业意义: 这条值 B。它不是单条公司新闻,而是中国大模型竞争结构正在改变的高信号:模型商品化之后,资本开始更集中地押注入口、生态和资源调度能力,而不只是参数与榜单。
深度分析: 这篇稿子的价值在于把过去一周零散的融资动作串成了一个行业判断。DeepSeek、Kimi、阶跃星辰被同时抬估值,不只是因为它们强,而是因为市场开始相信“头部中国模型平台将获得接近基础设施级别的稀缺溢价”。一旦这个判断站住,赛道就会更快进入清场:中小模型团队更难单独讲故事,头部玩家则会把资金投向算力、研究员、终端、Agent 平台和产业合作。对 Lighthouse 来说,这类结构性变化比某一条融资数字本身更值得持续跟踪。
评论观察:
- 🟢 支持:它把中国大模型竞争从“百模大战”解释成“资源重新集中”,对理解赛道阶段很有帮助。
- 🔴 质疑:文章仍以媒体与市场推演为主,很多融资细节尚未由公司正式公告,节奏可能继续反复。
信源: https://www.36kr.com/p/3802258052096004
关联行动: 继续盯头部中国模型公司的新融资公告、算力采购动作和终端/产业链绑定情况,看“清场”是否真的落到交易层。
CN-8. [B] OpenRouter 应用调用榜被 Hermes 反超,但背后最值得看的恰恰是中国模型在 Agent 链路里的渗透率
概述: 36Kr 05-10 08:54 报道,Hermes Agent 在 OpenRouter 全球应用调用量榜上首次超过 OpenClaw,单日 token 消耗达到 271B;更值得中国区盯的是,其当月调用排名前五的模型里,第一名是小米 MiMo-V2-Pro,另外还包括 MiniMax M2.7、阶跃 Step 3.5 Flash 和腾讯 Hy3 preview。
技术/产业意义: 这条值 B。重点不是 Hermes 本身,而是中国模型已经开始在全球高频 Agent 工作流里吃到真实调用份额,说明国产模型正在从“单点能力可比”走向“实际被集成、被消耗、被依赖”。
深度分析: 过去很多中国模型的强项停留在 benchmark 或单次体验,但 OpenRouter 这种调用榜更接近真实生产面:谁在高强度 Agent 任务里被持续选中,谁才真正进入工作流。小米 MiMo-V2-Pro 能排在第一,MiniMax、阶跃、腾讯模型也进前五,说明中国模型并不是只在本土生态里自转,而是在国际开发者可触达的 Agent 平台上逐步形成“性价比 + 特定能力”的实用优势。对中国开源和 API 生态来说,这是比一条单独参数新闻更硬的外部需求信号。
评论观察:
- 🟢 支持:真实调用榜比自报 benchmark 更能说明模型是否真的被工作流接受。
- 🔴 质疑:调用量高并不等同于利润高或长期留存高,平台切换和价格波动仍可能迅速改变榜单。
信源: https://www.36kr.com/p/3802262491029252
关联行动: 继续追小米 MiMo、MiniMax、阶跃与腾讯模型在全球 Agent 平台上的调用份额、价格策略与开发者留存变化。
🇺🇸 北美区
本轮在深度解读前额外对北美大厂做了快速补检:实际用浏览器复核了 Anthropic News 与 Google DeepMind Blog,并尝试打开 OpenAI Index。结果是:OpenAI 入口当前直接命中 Cloudflare challenge;Anthropic News 最新正文停留在 05-06(
Higher usage limits for Claude and a compute deal with SpaceX)与更早条目;DeepMind Blog 列表页虽有大量新标题,但在当前页面层无法稳定拿到满足 Lighthouse 24 小时铁律的明确发布时间。基于“宁缺毋滥、不收模糊日期旧闻”的原则,本日北美区不新增入库条目。
🇪🇺 欧洲区
本轮实际访问并复核了 Mistral AI News、Google DeepMind Blog、Hugging Face Blog、Stability AI News & Updates、Wayve Thinking、Poolside Blog、Synthesia Blog、Photoroom Blog,以及 Aleph Alpha / Builder.ai / Helsing 官方入口;同时对 @ylecun、@Thom_Wolf、@ClementDelangue、@steipete、@demishassabis、@jeffdean 的公开 X 主页做了逐一检查,并补做了围绕 EU AI Act、GDPR 与 AI、UK AI Safety Institute、European AI sovereignty、European AI funding 的 dated 检索。严格按“北京时间 2026-05-10 03:00 之后 + 页面可明确核验发布时间 + A/B 级 + 过去 7 天去重”四重筛选后,本轮欧洲区最终没有新增可入库条目。原因不是没搜,而是 24 小时窗口内能拿到的结果要么停留在 05-08/更早,要么只有月份粒度(如 DeepMind 列表页),要么是 403 / 429 / 风控页(如 Helsing、部分 Builder.ai / X 动态),不满足 Lighthouse 的硬入库标准。宁可空检,也不混入旧闻或模糊日期内容。
🌐 学术/硬件
本轮实际访问并复核了 arXiv 七个类别 recent/abs、Hugging Face Papers、Reddit r/MachineLearning / r/LocalLLaMA / r/artificial、Papers With Code、Raschka blog + magazine、The Batch、Import AI、The Gradient、Lil’Log、AI Snake Oil,以及 NVIDIA / AMD / Intel / TSMC / AI infrastructure 相关入口。严格按“北京时间 2026-05-10 03:00 之后 + 明确发布时间 + A/B 级 + 过去 7 天去重(论文额外看 14 天 arXiv ID)”筛选后,本轮学术/硬件同样没有新增可入库条目。
关键复核结论:
- arXiv 七类本轮能稳定核验到的最新条目,发布时间仍集中在 2026-05-08;无满足 24 小时窗口的新论文。
- Hugging Face Papers 当前前台实际仍落在 2026-05-08 的论文池;top 论文均早于本轮窗口。
- Reddit 三个必查版块已实际访问,但当前环境统一返回 403 Blocked,无法可靠抽取帖文时间;因此只记作“已检但不可用”,不强行入稿。
- Raschka、The Batch、Import AI、The Gradient、Lil’Log、AI Snake Oil 在本窗口内均无新文;
/root/.openclaw/workspace/data/raschka-known.json无需更新。- NVIDIA / AMD / Intel / TSMC / AI 基建线检出的增量,当前主要是财报点评、股票评论或早于窗口的旧稿,不够 A/B 级硬新闻标准。
下期追踪问题
- 阿里会不会在接下来 24-72 小时内正式宣布“通义千问接入淘宝”的上线时间、首批开放范围,以及对话式购物如何处理推荐排序与售后责任?
- 豆包订阅制会不会很快补出更细的权益分层、付费渗透率信号,或带动字节把收费逻辑扩展到 Coze / 企业智能体能力?
- DeepSeek 相关融资与 V4.1 路线图会不会在未来 24-72 小时内出现首次官方回应,尤其是融资结构、模型发布时间和多模态/MCP 规格?