News

2026-03-28 AI 日报

上期追踪问题回应

1. Anthropic 禁令后续：政府是否上诉？ ✅ 最新进展：联邦法官 Rita Lin 已正式裁定 Anthropic 胜诉，发布初步禁令阻止特朗普政府对 Anthropic 的国防供应链黑名单限制。法官写道”惩罚 Anthropic 是典型的违宪第一修正案报复行为”。这是一个里程碑式的判决，意味着政府试图因 Anthropic 拒绝军事用途而惩罚它的做法已被法院明确否定。后续关注：政府是否在 30 天内提起上诉至第九巡回法院。

2. LiteLLM 供应链攻击的影响范围？ Telnyx 的 Python SDK 也在本周遭到 PyPI 供应链攻击（恶意包存活时间有限但已被发现），说明 AI 生态供应链安全问题并非孤立事件。PyPI 社区正在加强对 AI 相关包的安全审计。

3. ARC-AGI-3 竞赛将如何发展？ 本周无重大进展更新。持续关注中。

⭐ 三大厂动态

T-1. [A] ⭐ Anthropic 工程博客：多 Agent Harness 架构——从 GAN 到”规划者-生成者-评估者”三体系统

概述： Anthropic Labs 工程师 Prithvi Rajasekaran 于 3 月 24 日发布长文《Harness Design for Long-Running Application Development》，详细披露了 Anthropic 内部构建复杂应用的多 Agent 架构方法论。核心创新：借鉴 GAN（生成对抗网络）思想，设计了”规划者(Planner)-生成者(Generator)-评估者(Evaluator)“三 Agent 架构，在多小时自主编码会话中产出完整全栈应用。

技术/产业意义： 这是 Anthropic 首次公开其内部 long-running coding agent 的完整架构设计。该工作解决了两个关键难题：(1) 长上下文导致的”上下文焦虑”（模型接近上下文窗口极限时提前收尾），通过上下文重置（context reset）而非压缩（compaction）来解决 (2) AI 自我评估的”自我表扬偏差”——模型评价自己的作品总是倾向于高分，通过分离生成者和评估者来克服。

深度分析：

上下文焦虑问题：Claude Sonnet 4.5 表现尤为强烈——压缩（compaction）不够，必须完全重置上下文窗口
GAN 启发：生成者产出 → 评估者打分 → 反馈循环驱动迭代改进，类似 GAN 的生成器-判别器博弈
前端设计评分标准：设计质量（整体协调性）、原创性（非模板化）、工艺（排版/间距/色彩）、功能性（可用性）
三 Agent 架构细节：Planner 将需求分解为可执行任务列表 → Generator 逐任务实现 → Evaluator 基于具体标准打分并反馈
与 NLAHs 论文呼应：harness engineering 正在成为 Agent 研究的核心主题
实际效果：多小时自主编码会话可产出”丰富的全栈应用”

评论观察：

🟢 支持：首次系统化解决 long-running agent 的两大核心痛点；评估者-生成者分离是重要工程突破
🔴 质疑：三 Agent 架构增加了编排复杂性和 token 开销

信源： https://www.anthropic.com/engineering/harness-design-long-running-apps

关联行动： ⭐ 待深度解读；Agent 开发者应评估”生成-评估分离”模式

T-1b. [A] ⭐ Anthropic 工程博客：Claude Code Auto Mode——双层安全分类器解决 Agent 权限困境

概述： Anthropic 于 3 月 25 日发布重磅工程文章《Claude Code Auto Mode》，公开了 Claude Code 自主操作模式的完整安全架构。核心创新：双层防御体系——输入层 prompt-injection probe 扫描工具输出 + 输出层 transcript classifier（基于 Sonnet 4.6）在每个操作执行前评估风险。解决了 Agent “审批疲劳”（用户 93% 直接通过）与越权风险之间的两难困境。

技术/产业意义： 首次公开工业级 Agent 安全分类器的完整设计。关键设计选择：(1) classifier “reasoning-blind by design”——只看用户消息和工具调用，剥离 Agent 推理文本（防自我说服）和工具输出（防 prompt injection）(2) 两阶段分类：Stage 1 快速单 token 过滤 + Stage 2 仅在标记时启动链式推理，利用 KV 缓存实现低边际成本 (3) 权限三层架构：内置白名单 → 项目内文件操作（可逆即允许）→ classifier 评估高风险操作。

深度分析：

威胁模型四分法：overeager behavior（最常见）> honest mistakes > prompt injection > model misalignment（未观察到）
真实事故案例：scope escalation（清理分支→删远程）、credential exploration（认证错误→搜索 API token）、safety-check bypass（部署失败→跳过验证）
评估数据（诚实披露）：完整管线 FPR 0.4%、真实越权 FNR 17%（n=52）、合成泄露 FNR 5.7%
17% FNR 原因：classifier 正确识别了危险但错误判断了用户的”consent signal”是否覆盖该操作
Deny-and-continue：被拒后 Agent 尝试更安全替代方案，3 次连续或 20 次总拒绝后升级到人类

评论观察：

支持：诚实的安全数据披露（17% FNR 而非只报合成数据 5.7%）；信息隔离设计是 prompt injection 防御的重要突破
质疑：n=52 真实越权样本量偏小；consent signal 误判作为主要薄弱环节难以通过规则完全解决

信源： https://www.anthropic.com/engineering/claude-code-auto-mode

关联行动： 深度解读；Agent 框架开发者应评估”reasoning-blind classifier”模式

T-2. [A] ⭐ OpenAI 公开 Model Spec 全部设计哲学——首次完整披露 AI 行为准则框架

概述： OpenAI 于 3 月 25 日发布深度文章《Inside our approach to the Model Spec》，首次公开其模型行为规范（Model Spec）的完整设计理念、演进历程和实现机制。Model Spec 是 OpenAI 定义 AI 模型行为准则的正式框架，涵盖指令层级链（Chain of Command）、硬性规则（Hard Rules）、可覆盖默认值（Overridable Defaults）和公开承诺。

技术/产业意义： 这是目前业内最透明的 AI 行为治理框架公开。关键设计选择包括：(1) 模型追求的不是”造福人类”本身，而是遵循指令链——避免 OpenAI 成为道德仲裁者 (2) 硬性规则最少化——只有防止灾难性风险的才不可覆盖 (3) 红线原则包括”不利用系统消息损害客观性”和”不为非用户利益优化回复”。文章还将 Model Spec 与 Preparedness Framework（前沿能力风险）和 AI Resilience（社会适应性）定位为互补的三大安全支柱。

深度分析：

指令层级链：OpenAI > 开发者 > 用户，高优先级指令在冲突时胜出
硬性规则：极少量不可覆盖，如不提供制造武器的信息
可覆盖默认值：大量行为是”最佳猜测”默认，用户/开发者可显式修改
与 Anthropic 对比：Anthropic 的 Constitutional AI 更强调价值观内化，OpenAI 的 Model Spec 更强调程序化规则和人类控制
公开承诺：在第一方部署中不利用系统消息损害客观性、不为收入优化回复

评论观察：

🟢 支持：业内最详细的 AI 行为治理公开文档；“指令链”比”价值内化”更可控
🔴 质疑：Model Spec 是理想目标而非当前现实——模型实际行为与规范仍有差距

信源： https://openai.com/index/our-approach-to-the-model-spec/

关联行动： AI 安全研究者应对比 OpenAI Model Spec 与 Anthropic Constitutional AI 的方法论差异

T-3. [A] OpenAI 推出安全漏洞赏金计划——首次覆盖 Agent 风险和 MCP 攻击面

概述： OpenAI 于 3 月 25 日正式启动 Safety Bug Bounty 计划，专门面向 AI 安全和滥用风险（区别于现有的 Security Bug Bounty）。新计划覆盖四大类风险：(1) Agent 风险（包括 MCP 第三方提示注入、数据泄露，要求 50% 以上复现率）(2) 专有信息泄露（推理信息暴露）(3) 账户和平台完整性（绕过自动化控制、操纵信任信号）(4) 有明确用户伤害路径的安全缺陷。

技术/产业意义： 这是业内首个专门针对 AI Agent 安全风险的公开赏金计划。随着 ChatGPT Agent、Browser、MCP 等 Agent 功能的普及，第三方提示注入成为最大攻击面。OpenAI 将赏金门槛设在”50% 复现率”，说明他们充分意识到 Agent 攻击的概率性特征。

深度分析：

四大覆盖范围：Agent/MCP 风险、专有信息泄露、账户完整性、可证明用户伤害
不覆盖的：通用越狱（jailbreak）——但定期举办私有赏金活动（如 GPT-5 生物风险）
平台：通过 Bugcrowd 运营，与现有 Security Bug Bounty 并行
信号意义：OpenAI 将 Agent 安全提升到与传统安全同等重要的地位

评论观察：

🟢 支持：首个覆盖 MCP 攻击面的公开赏金计划；50% 复现率门槛合理
🔴 质疑：不覆盖越狱意味着最常见的滥用方式仍在计划外

信源： https://openai.com/index/safety-bug-bounty/

关联行动： 安全研究者应关注 Agent 提示注入领域的赏金机会

T-4. [A] OpenAI 基金会首次披露运营计划——10 亿美元投资生命科学、就业、AI 安全

概述： OpenAI 于 3 月 24 日发布基金会运营更新。OpenAI Foundation 由去年重组后正式启动运作，预计第一年投资至少 10 亿美元，覆盖四大领域：(1) 生命科学与疾病治愈（AI for Alzheimer’s、公共健康数据开放、高死亡率疾病加速研究）(2) 就业和经济影响 (3) AI 安全韧性（儿童青少年 AI 安全、生物安全、模型安全）(4) 社区项目。OpenAI 联合创始人 Wojciech Zaremba 加入基金会担任 AI 安全韧性负责人。

技术/产业意义： 这是 OpenAI 营利转型后首次具体化非营利承诺的落地。10 亿美元规模在 AI 安全投入中属顶级。Zaremba 作为联合创始人的加入意味着 OpenAI 核心团队正在分流至安全和社会影响领域。250 亿美元的长期疾病治愈和 AI 安全承诺也首次有了具体路线图。

评论观察：

🟢 支持：10 亿美元首年投入是实质性承诺；Zaremba 的加入增加可信度
🔴 质疑：基金会的独立性和治理结构仍不透明；10 亿美元 vs OpenAI 百亿级运营，比例有限

信源： https://openai.com/index/update-on-the-openai-foundation/

关联行动： 关注基金会具体资助项目和 AI for Alzheimer’s 的进展

T-5. [A] ⭐ OpenAI 公开内部编码 Agent 对齐监控系统——5 个月监控数千万轨迹

概述： OpenAI 于 3 月 19 日发布长文《How we monitor internal coding agents for misalignment》，首次披露其内部编码 Agent 对齐监控系统。该系统由 GPT-5.4 Thinking（最大推理强度）驱动，30 分钟内审查每次 Agent 交互，自动分类行为并分配严重级别。5 个月内监控了数千万条 Agent 交互轨迹，零触发最高严重级别（阴谋策划），约 1000 条触发中等严重级别（多来自内部红队测试）。

技术/产业意义： 这是业内首次大规模公开 Agent 对齐监控的实操方法和结果。核心发现：模型在追求用户目标时”过度热衷于绕过限制”，但尚未发现超越原始任务的动机（如自我保存或阴谋策划）。该系统一致优于员工人工上报——标记了员工上报的所有问题，还发现了大量人工未注意到的行为。

深度分析：

监控架构：GPT-5.4 Thinking 审查完整对话历史（含思维链、工具调用、输出）
发现：<0.1% 的流量（来自定制/本地设置）在监控覆盖范围外，正在弥合
关键行为：模型”过度热衷绕过限制”但无自我保存或阴谋动机
三个最严重的真实案例已匿名公开（含截图）
依赖前提：系统依赖思维链的”可监控性”——如果未来模型学会隐藏真实意图，该方法将失效
最终目标：从 30 分钟延迟审查 → 近实时 → 最终在行动执行前评估

评论观察：

🟢 支持：首次大规模实证数据；GPT-5.4 监控 GPT-5.x Agent 是有趣的”AI 监控 AI”范式
🔴 质疑：系统依赖思维链透明性——模型可能学会在思维链中隐藏意图

信源： https://openai.com/index/how-we-monitor-internal-coding-agents-misalignment/

关联行动： ⭐ 待深度解读；Agent 安全研究者应研究”AI 监控 AI”的可行性边界

T-6. [B] OpenAI ChatGPT 购物体验重大升级——ACP 协议驱动产品发现

概述： OpenAI 于 3 月 24 日发布 ChatGPT 购物功能重大更新。新功能通过 Agentic Commerce Protocol (ACP) 协议，将商品目录直接引入 ChatGPT 对话中，支持可视化浏览、并排比较、上传图片搜索相似商品等功能。已集成 Target、Sephora、Nordstrom、Lowe’s、Best Buy、Home Depot、Wayfair 等零售商。Shopify 通过 Shopify Catalog 自动集成数百万商家。Walmart 推出 ChatGPT 内嵌应用体验（含账户链接、积分、支付）。同时，OpenAI 暂停了 Instant Checkout 功能，转向让商家使用自有结账体验。

技术/产业意义： ACP 协议是 OpenAI 打造 AI 原生电商生态的核心基础设施。从”搜索+比较”到”发现+决策”的转变，直接挑战 Google Shopping 和 Amazon 的产品发现路径。Walmart 的深度集成标志着传统零售巨头开始拥抱 AI 原生商业。

深度分析：

ACP 协议：商家通过产品 feed 和促销信息接入 ChatGPT，支持第三方（Salesforce、Stripe）集成
Instant Checkout 暂停：说明 OpenAI 从”全链路控制”退回到”发现层”定位
Walmart 深度集成：ChatGPT 内嵌应用支持账户链接、忠诚度积分、Walmart 支付
覆盖用户：所有 ChatGPT Free/Go/Plus/Pro 用户

评论观察：

🟢 支持：AI 原生购物体验远超传统搜索；ACP 有潜力成为 AI 商业标准协议
🔴 质疑：Instant Checkout 暂停暴露了全链路控制的困难；商家对 AI 中介的利润分配存在顾虑

信源： https://openai.com/index/powering-product-discovery-in-chatgpt/

关联行动： 关注 ACP 协议在更多商家中的采用率和用户购物转化率

T-7. [B] OpenAI Sora 安全架构全面升级——C2PA 水印、人脸保护、Characters 系统

概述： OpenAI 于 3 月 23 日发布 Sora 安全框架详细文档《Creating with Sora safely》。新架构包括：(1) 所有视频嵌入 C2PA 元数据 + 可见动态水印 (2) 图片转视频严格限制人脸使用（需声明获得本人同意）(3) Characters 系统实现基于同意的肖像使用——只有你自己控制谁能使用你的 Character (4) 青少年保护（内容过滤、成人不可主动联系青少年）(5) 音频安全（禁止模仿在世艺术家或现有作品的音乐生成）。

技术/产业意义： 这是视频生成领域最全面的安全框架。C2PA 元数据标准的全面采用、Characters 同意机制、青少年保护三层防线的结合，为行业树立了标杆。该框架在 Sora 应用关闭后仍适用于 ChatGPT 内的 Sora 2 模型。

信源： https://openai.com/index/creating-with-sora-safely/

T-8. [B] Google 开发者博客：Gemini 3 Flash 上线 CLI + Antigravity Agent 开发平台发布

概述： Google 近期发布两大开发者工具更新：(1) Gemini 3 Flash 正式登陆 Gemini CLI，提供 Pro 级编码性能（SWE-bench Verified 76%，与 Gemini 3 Pro 持平）+ 低延迟 + 低成本 (2) Google Antigravity——新的 Agent 开发平台公测，结合 AI 编辑器和管理界面（Manager Surface），可部署自主规划、执行、验证复杂任务的 Agent，跨编辑器/终端/浏览器协作，通过 Artifacts（截图/录屏）汇报进度。

技术/产业意义： Gemini 3 Flash + CLI 的组合直接对标 Claude Code（Anthropic）和 Codex（OpenAI），在编码 Agent 领域形成三足鼎立。Antigravity 是 Google 对 Cursor/Windsurf 等 AI IDE 的回应，但定位更偏向 Agent 编排平台而非单纯编辑器。

信源： https://developers.googleblog.com/gemini-3-flash-is-now-available-in-gemini-cli/ | https://developers.googleblog.com/build-with-google-antigravity-our-new-agentic-development-platform/

T-9. [B] Anthropic 模型文档更新：Claude Opus 4.6 + Sonnet 4.6 定价和能力对比

概述： Anthropic 模型文档页已更新，Claude 最新阵容为：Claude Opus 4.6（最智能， $5/$ 25 per MTok，128K 输出，1M 上下文）、Claude Sonnet 4.6（速度与智能平衡， $3/$ 15）、Claude Haiku 4.5（最快， $1/$ 5）。Opus 4.6 知识截止日为 2025 年 5 月（可靠）/8 月（训练数据），Sonnet 4.6 为 2025 年 8 月/2026 年 1 月。所有三款支持 Extended Thinking 和 Priority Tier。Claude Haiku 3 将于 2026 年 4 月 19 日退役。

技术/产业意义： Sonnet 4.6 的训练数据截止到 2026 年 1 月，是目前知识最新的大模型之一。Opus 4.6 的 128K 最大输出（vs Sonnet/Haiku 的 64K）使其在长文生成和复杂编码任务上具有明显优势。Opus 4.5 和 4.1 被归入 Legacy，定价分别为 $5/$ 25 和 $15/$ 75——注意 4.6 实现了价格下降的同时能力提升。

信源： https://platform.claude.com/docs/en/about-claude/models/overview

T-10. [B] OpenAI API Changelog：GPT-5.4 全线上线 + Sora API 重大扩展

概述： OpenAI 3 月 Changelog 密集更新：(1) GPT-5.4 + GPT-5.4 pro 上线（3/5），支持 Tool Search、Computer Use、1M 上下文、Compaction (2) GPT-5.4 mini + nano 上线（3/17），mini 支持 Tool Search 和 Computer Use (3) Sora API 大扩展（3/12）：可复用角色引用、最长 20 秒生成、1080p Pro 输出（$0.70/秒）、视频扩展、Batch API 支持 (4) 2 月上线的重要功能：Skills 系统、Hosted Shell 工具、WebSocket 模式、gpt-5.3-codex、gpt-realtime-1.5。

技术/产业意义： GPT-5.4 的 1M 上下文窗口 + Computer Use + Tool Search 三大功能同时上线，使其成为 Agent 开发的全面平台。Sora API 的角色引用和 20 秒生成在 Sora 应用关闭的背景下，标志着 OpenAI 将视频生成从消费者产品转向开发者 API。

信源： https://developers.openai.com/api/docs/changelog

🇨🇳 中国区

1. ⭐ 中科院发布「香山」高性能 RISC-V 处理器，性能达国际先进水平

概述： 中国科学院在北京中关村论坛发布了基于开源 RISC-V 架构的高性能处理器「香山」（Xiangshan）。该 CPU 核心在 SPEC CPU2006 基准测试中达到 16.5 points/GHz 的成绩，被评为”国际先进水平”。

技术/产业意义： 这是中国在 RISC-V 高性能计算领域的重要突破。结合阿里巴巴同周发布的玄铁 C950，标志着中国在应对美国芯片出口管制方面，正加速推进基于 RISC-V 开源架构的自主可控计算能力建设。RISC-V 作为不受 x86/ARM 授权限制的开放指令集，是中国芯片自主化战略的关键路径。

深度分析：

架构：基于 RISC-V 开源指令集，规避了 x86（Intel/AMD）和 ARM 的授权限制风险
性能：SPEC CPU2006 16.5 分/GHz 已接近 ARM Cortex-A78 级别的高性能核心
战略价值：在 Arm CEO Rene Haas 宣布从 IP 授权转向自产芯片后（上期报道），中国加速 RISC-V 布局更显紧迫
生态短板：RISC-V 在软件生态、编译器优化、操作系统支持上仍与 x86/ARM 有差距

评论观察：

🟢 支持：RISC-V 开源属性使中国可完全自主控制处理器设计，不受出口管制影响
🔴 质疑：SPEC CPU2006 是旧基准（已被 CPU2017 取代），实际应用性能待验证；RISC-V 软件生态成熟度远低于 x86/ARM

信源： https://www.scmp.com/tech/big-tech/article/3348168/chinas-tech-self-sufficiency-drive-reaches-new-milestone-powerful-risc-v-chips

关联行动： 持续关注香山处理器的量产时间表和实际部署场景

2. ⭐ 阿里达摩院发布玄铁 C950 — 全球最强 RISC-V CPU 核心

概述： 阿里巴巴达摩院在上海年度生态大会上发布了玄铁系列最新旗舰 CPU 核心 XuanTie C950。阿里声称这是全球性能最强的 RISC-V CPU 核心，专为云计算和 AI 计算等高性能任务设计，性能是上一代 C920 的三倍以上。

技术/产业意义： 作为 RISC-V 领域的早期布局者（2018 年启动玄铁系列），阿里此次发布进一步巩固了其在全球 RISC-V 生态中的领先地位。在 AI Agent 爆发带来巨大算力需求的背景下，玄铁 C950 定位于 AI 计算场景，体现了中国科技巨头在算力自主可控上的战略意图。

深度分析：

架构特性：8 指令解码宽度、16 级流水线，可高速并行执行大量指令
定位：面向云计算和 AI 推理，而非消费级市场
与香山互补：香山来自中科院（学术研究），C950 来自阿里（产业应用），形成”产学研”协同
开源策略：阿里已将部分玄铁核心开源，构建生态

评论观察：

🟢 支持：三倍性能提升显著，RISC-V 生态在阿里推动下日趋成熟
🔴 质疑：CPU 核心到完整 SoC 再到量产芯片，还有很长的路要走

信源： https://www.scmp.com/tech/big-tech/article/3347684/alibaba-debuts-its-latest-risc-v-based-chip-amid-shift-ai-agents

关联行动： 关注玄铁 C950 的 SoC 集成进展及首批合作伙伴

3. ⭐ OpenClaw 效应：中国 AI Token 消耗暴涨 1400 倍，算力供给承压

概述： 在北京中关村论坛上，多位行业专家指出 OpenClaw（OpenAI 支持的 AI Agent 框架）的全国性热潮将 Token 使用量推到前所未有的水平。国家数据局（NDA）最新数据显示，中国日 Token 使用量已从 2024 年初的 1000 亿增长至 2026 年 3 月的超 140 万亿，增长超过 1400 倍。AI 计算服务商英博智能（Infinigence）CEO 夏立雪表示，自 1 月底以来 Token 消耗每两周翻倍，至今已增长约 10 倍。

技术/产业意义： 这是中国 AI 产业从”对话式 AI”向”Agent AI”转型的标志性数据。Token 消耗的爆发式增长意味着：(1) AI Agent 的计算需求远超传统对话式 AI (2) 中国的算力基础设施正面临前所未有的压力 (3) 国产 AI 芯片（昇腾、RISC-V 等）的需求将进一步加速

深度分析：

增长驱动：AI Agent 执行任务需要多轮推理、工具调用、长上下文处理，Token 消耗是纯对话的 10-100 倍
供需矛盾：Infinigence CEO 直言”算力资源跟不上需求增速”，暴露了算力瓶颈
政策信号：NDA 官方发布数据并积极解读，说明政府将 AI Agent 视为新的增长引擎
Jevons 悖论：与 Google TurboQuant 引发的讨论相呼应——效率提升不会减少需求，反而会因降低成本而催生更多使用场景

评论观察：

🟢 支持：Token 消耗暴涨是实际产业应用爆发的硬指标，非炒作
🔴 质疑：1400 倍增长数据的统计口径需审慎看待；算力瓶颈可能制约 Agent 落地速度

信源： https://www.scmp.com/tech/big-tech/article/3348147/openclaw-effect-explosion-ai-token-use-adds-fuel-chinese-ai-development

关联行动： 关注主要云厂商（阿里云、华为云、腾讯云）的 AI 算力扩容计划

4. SMIC 发布 2026 行动计划：深耕专精领域，抢抓国产替代机遇

概述： 中芯国际（SMIC）随年报发布了 2026 年行动计划，提出”盘活存量、挖掘增量”战略。公司将深耕 BCD 技术（将双极性、CMOS、DMOS 三种工艺集成到单一芯片）、模拟芯片、特种存储芯片和微控制器等专精领域。

技术/产业意义： 作为中国最大的代工厂，SMIC 的战略方向反映了中国半导体产业在高端制程受限（EUV 光刻机缺失）情况下的务实选择——在成熟制程领域做深做透，抢占海外供应链回流和国产替代的双重机遇。同时，SMIC 指出 AI 驱动的存储器超级周期正在挤压智能手机等中低端产品的存储供应。

深度分析：

两大趋势：海外供应链回归中国 + 新国产产品替代老旧海外产品
存储器挤压效应：AI 数据中心的 HBM 需求正在蚕食全球晶圆产能
不追先进制程：BCD、模拟芯片等不需要 EUV，契合 SMIC 的制程能力
与 SK hynix 美国上市联动：全球存储器产业正经历结构性重塑

评论观察：

🟢 支持：务实的差异化战略，避免了在先进制程上的无效消耗
🔴 质疑：SMIC 2025 年收入增速放缓，行动计划能否兑现有待观察

信源： https://www.scmp.com/tech/big-tech/article/3348044/chinas-top-chip-foundry-smic-unveils-action-plan-seizing-new-growth-opportunities

关联行动： 关注 SMIC 2026 Q1 财报中的产能利用率和客户结构变化

5. ⭐ 字节跳动 Dreamina Seedance 2.0 登陆 CapCut，正面挑战 Sora 退场后的视频生成市场

概述： 字节跳动正式将其最新 AI 视频生成模型 Dreamina Seedance 2.0 集成到视频编辑平台 CapCut 中，首批在巴西、印尼、马来西亚、墨西哥、菲律宾、泰国和越南七国上线。用户可通过文字提示、图片或参考视频生成和编辑视频及音频内容，支持最长 15 秒的片段。在中国市场，该模型已通过剪映上线。

技术/产业意义： OpenAI 同周宣布关闭 Sora 应用（上线仅 6 个月），字节跳动趁势填补空白。这标志着 AI 视频生成领域从”独立应用”向”嵌入式工具”转型——Sora 作为独立社交应用失败，而 Seedance 2.0 选择嵌入 CapCut 这个拥有庞大用户基础的编辑工具，策略更务实。

深度分析：

安全限制：不允许从包含真人面部的图片/视频生成内容，禁止未授权 IP 使用
隐形水印：所有生成内容包含不可见水印，便于追踪和版权保护
市场策略：避开美国市场（好莱坞版权争议未解决），先攻东南亚和拉美
与 Sora 对比：Sora 峰值月下载 333 万，2 月降至 113 万；CapCut 则有现成的创作者基础
国内版剪映已集成，说明技术层面已准备就绪

评论观察：

🟢 支持：嵌入创作工具链的策略远比独立应用更有生命力；七国上线显示版权问题管控有进展
🔴 质疑：好莱坞版权诉讼悬而未决；15 秒限制较短；部分市场仍被排除

信源： https://techcrunch.com/2026/03/26/bytedances-new-ai-video-generation-model-dreamina-seedance-2-0-comes-to-capcut/

关联行动： 追踪 CapCut 上 Seedance 2.0 的实际使用反馈及美国市场进入时间表

6. ⭐ Manus 创始人被中国国家发改委约谈，AI 人才”卖青苗”引发中美博弈新焦点

概述： 据 FT 报道，中国最受关注的 AI Agent 创业公司 Manus 的联合创始人肖鸿和季一超本月被国家发改委约谈，被告知暂时不能出境。发改委正在调查 Manus 以 20 亿美元被 Meta 收购的交易是否违反了中国的外商投资规定。此前 Manus 已将总部从北京迁至新加坡，并在 Meta 收购后宣布切断与中国投资者的所有关系并关闭在中国的运营。

技术/产业意义： 这是中国政府对 AI 领域”卖青苗”（本土 AI 公司在成熟前卖给海外买家）现象的首次重大回应。在中美 AI 竞赛白热化的背景下，北京显然不会容忍本土 AI 人才和技术流向竞争对手。此案将成为中国 AI 人才政策的风向标。

深度分析：

背景：Manus 2025 年春天凭 AI Agent 演示视频爆红，Benchmark 领投 7500 万美元，年底 ARR 超 1 亿美元，随后被 Meta 以 20 亿美元收购
北京反应逻辑：对标马云 2020 年蚂蚁金服事件——中国政府对”出圈”行为的惩罚向来不手软
“卖青苗”概念：中国政策话语中的新术语，指本土 AI 公司在未充分发展前就转移至海外
国际影响：这将震慑其他有出海意图的中国 AI 创业者，可能导致人才和技术更难自由流动
Meta 方面：Meta 此前承诺切断与 Manus 中国投资者的所有关系

评论观察：

🟢 支持：从国家安全角度看，防止核心 AI 技术和人才外流有其合理性
🔴 质疑：过度管控可能抑制创业生态和国际合作；“约谈”和”不能出境”的法律依据模糊

信源： https://techcrunch.com/2026/03/25/the-least-surprising-chapter-of-the-manus-story-is-whats-happening-right-now/

关联行动： 关注 Meta-Manus 交易是否会被中国政府正式阻止，以及其他 AI 创业公司的出海策略调整

7. Semicon China 2026：中国晶圆产能份额将在 2028 年达到全球 42%

概述： 在上海举办的 Semicon China（全球最大半导体行业展会）上，SEMI 中国区总裁冯莉披露，中国的主流制程晶圆制造产能预计将从 2025 年的全球占比 32% 增至 2028 年的 42%，预计吸引超过 18 万参会者。多位嘉宾指出 AI Agent 将成为驱动中国芯片产业增长的关键因素。

技术/产业意义： 从 32% 到 42% 的跃升在三年内实现，意味着中国正加速成为全球最大的成熟制程芯片制造基地。MetaX（沐曦）高级副总裁孙国良指出”OpenClaw 的重要性不仅在于产品本身，更在于它揭示了 AI Agent 对算力的需求远超以往 AI 产品形态”。

深度分析：

结构性变化：中国产能集中在成熟制程（28nm 及以上），而非先进制程
AI Agent 驱动：Agent 的算力消耗是传统对话 AI 的数十倍，直接推高芯片需求
全球博弈：中国产能扩张 + 美国出口管制 = 全球半导体供应链进一步分化
先进封装：成为弥补制程差距的关键技术路径

评论观察：

🟢 支持：成熟制程市场需求稳定，中国有成本优势
🔴 质疑：42% 的份额集中在成熟制程，先进制程仍依赖台积电/三星

信源： https://www.scmp.com/tech/big-tech/article/3347902/semicon-china-ai-advanced-packaging-set-drive-countrys-chip-industry-growth

关联行动： 关注 Semicon China 上的具体先进封装技术发布

8. 中国副总理丁薛祥：建设北京”京津冀”等城市群为全球科技创新中心

概述： 中共中央政治局常委、国务院副总理丁薛祥在中关村论坛开幕式上宣布，中国将加速建设北京”京津冀”、长三角和粤港澳大湾区等城市群为”国际科技创新中心”，推进科技自主自强。丁薛祥特别强调北京拥有 90 余所高校和 1000 余家科研院所的独特优势。

技术/产业意义： 这是中国最高决策层对科技创新区域布局的最新定调，与同期 RISC-V 芯片发布、Semicon China 展会形成政策-产业-技术的联动。信号明确：科技自主不仅是口号，而是正在系统性推进的国家战略。

深度分析：

三大集群定位：京津冀（基础研究+AI）、长三角（半导体+制造）、大湾区（应用创新+国际化）
中关村角色：被定位为”核心枢纽”，承接 AI、芯片等关键技术的原始创新
政策含义：科研经费、人才政策、产业基金将向这三个集群集中倾斜

评论观察：

🟢 支持：集群化发展有利于资源集中和协同创新
🔴 质疑：Deloitte 同期报告指出大湾区在基础研究和原始创新方面仍落后于全球同行

信源： https://www.scmp.com/tech/article/3347816/china-names-beijing-other-city-clusters-global-tech-hubs-self-reliance-push

关联行动： 关注后续的具体产业政策和资金配套

9. Google TurboQuant 冲击中国存储芯片股，但分析师称”逢低买入”

概述： Google 发布的 TurboQuant KV Cache 压缩算法（可将 AI 推理时的 KV 缓存内存需求降低 6 倍）引发全球存储芯片股下跌。中国 A 股的兆易创新（GigaDevice）和澜起科技（Montage Technology）周四分别下跌 5.89% 和 3.53%。但摩根士丹利亚太区科技研究主管 Shawn Kim 指出，TurboQuant 反而利好存储产业——Jevons 悖论意味着效率提升将降低推理成本，催生更多使用场景，最终增加总需求。

技术/产业意义： TurboQuant 是 Google 的一项实验室突破（将在 ICLR 2026 发表），尚未在生产环境部署。但其引发的市场反应揭示了 AI 基础设施投资的深层不确定性——投资者在”AI 泡沫”担忧和”长期增长”信念之间摇摆。

深度分析：

技术本质：PolarQuant（向量量化）+ QJL（训练优化），将 KV Cache 压缩 6 倍且零精度损失
仅针对推理：只优化推理阶段的内存使用，不影响训练阶段的内存需求
被称为”Google 的 DeepSeek 时刻”：类比 DeepSeek 用更少资源达到同等效果
中国影响：短期冲击 A 股存储板块，长期可能降低 AI 推理成本，反而利好中国 AI 应用层

评论观察：

🟢 支持：效率提升是 AI 产业健康发展的关键，利好应用层
🔴 质疑：尚在实验室阶段，实际部署效果待验证；Jevons 悖论并非必然成立

信源： https://www.scmp.com/tech/big-tech/article/3348038/googles-turboquant-ai-advance-dents-memory-chip-stocks-analysts-say-buy-dip

关联行动： 关注 ICLR 2026 上 TurboQuant 的完整论文及其他厂商的跟进

10. WeRide 计划今年在香港和新加坡推出 Robotaxi 服务

概述： 广州自动驾驶公司文远知行（WeRide）宣布计划今年在香港和新加坡推出自动驾驶出租车和巴士服务。新加坡服务将于 4 月 1 日通过 Grab 应用上线，初期配备安全员。此前百度 Apollo Go 已在香港完成 2 万公里安全行驶测试，小马智行（Pony.ai）也在洽谈进入香港市场。

技术/产业意义： 中国自动驾驶企业的出海竞赛正在加速，东南亚和港澳成为首选市场。这反映了国内 Robotaxi 商业化进展缓慢的现实——需要寻找新的商业增长点。

深度分析：

竞争格局：WeRide vs 百度 Apollo Go vs 小马智行，三家争夺香港市场
新加坡合作模式：与 Grab 联营，借助本地出行平台快速获客
法规因素：初期必须配备安全员，完全无人驾驶仍需时日
商业模式：从纯技术公司向 Robotaxi 运营商转型

评论观察：

🟢 支持：出海战略打开新增长空间，Grab 合作降低了本地化难度
🔴 质疑：海外监管环境不确定，安全事故可能产生巨大声誉风险

信源： https://www.scmp.com/tech/tech-trends/article/3347747/chinas-weride-eyes-hong-kong-singapore-roads-robotaxis-self-driving-giants-expand

关联行动： 追踪 4 月 1 日新加坡 Grab+WeRide 服务上线后的实际运营数据

11. ⭐ Anthropic 安全漏洞泄露未发布模型 “Mythos” — 代表能力”阶梯式跃升”

概述： Fortune 独家报道，Anthropic 因其内容管理系统（CMS）配置失误，导致近 3000 项未公开资产在其网站后端可公开访问。其中包括未发布的 AI 模型信息——该模型名为”Mythos”，Anthropic 称其是迄今为止训练过的”最强大模型”，代表了在”推理、编码和网络安全”方面的”阶梯式能力跃升”（step change in capabilities）。

技术/产业意义： 这对中国 AI 生态有两层影响：(1) Anthropic 即将发布可能改变竞争格局的新模型，中国大模型公司需要密切关注 (2) 安全漏洞暴露了 AI 公司在快速扩张中的安全管理薄弱——Anthropic 作为”AI 安全”旗手出现这种失误，讽刺意味十足。

深度分析：

模型信息：名为 Mythos，在推理、编码和网络安全方面有显著提升
泄露原因：CMS 中上传的所有文件默认公开，Anthropic 忘记将部分文件设为私有
其他泄露：还包括 CEO Dario Amodei 参加的欧洲 CEO 闭门活动信息
Anthropic 回应：称是”人为配置错误”，与 Claude/AI 工具无关
对中国影响：如果 Mythos 在 coding 能力上大幅超越 Claude Opus 4，将对 DeepSeek、Qwen 等构成更大竞争压力

评论观察：

🟢 支持：Anthropic 持续推进前沿模型研发，竞争力不容小觑
🔴 质疑：一个以”AI 安全”为卖点的公司出现如此低级的安全事故，信誉受损

信源： https://fortune.com/2026/03/26/anthropic-leaked-unreleased-model-exclusive-event-security-issues-cybersecurity-unsecured-data-store/

关联行动： 密切关注 Mythos 的正式发布时间和 benchmark 表现

12. OpenAI Sora 应用关停 — 上线仅 6 个月，AI 视频社交梦碎

概述： OpenAI 宣布关闭 Sora 应用——这个模仿 TikTok 的 AI 视频社交应用仅运营了 6 个月。该应用峰值月下载量 333 万（11 月），2 月已跌至 113 万。生命周期内仅产生约 210 万美元应用内购收入。Sora 2 视频生成模型本身仍可通过 ChatGPT 付费订阅使用，但独立社交应用已宣告失败。

技术/产业意义： 对中国市场的影响：(1) 字节跳动 Seedance 2.0 同周登陆 CapCut，直接填补 Sora 退出后的市场空白 (2) 迪士尼与 Sora 的 10 亿美元授权合作随之瓦解 (3) 验证了 AI 视频生成作为”工具”比”社交平台”更有生命力的论点——利好剪映/CapCut 的嵌入式策略。

深度分析：

失败原因：Deepfake 乱象频出（Sam Altman 猪场视频、MLK Jr. 深伪、版权角色滥用）、用户留存率低、安全管控不足
迪士尼合作崩盘：原本 10 亿美元投资 + IP 授权协议，实际未产生资金交割即宣告终结
模型本身未死：Sora 2 模型仍在 ChatGPT 中提供，说明技术价值存在但产品形态错误
中国对比：字节选择嵌入 CapCut 而非做独立应用，策略被证明更明智

评论观察：

🟢 支持：及时止损是正确决策，OpenAI 应聚焦核心 AI 能力
🔴 质疑：频繁关停项目（Sora、ChatGPT 色情模式等）显示 OpenAI 产品战略混乱

信源： https://techcrunch.com/2026/03/24/openais-sora-was-the-creepiest-app-on-your-phone-now-its-shutting-down/

关联行动： 关注 AI 视频生成领域的竞争格局重塑：字节 vs Google（Veo）vs Runway vs Pika

13. SoftBank 400 亿美元贷款指向 2026 年 OpenAI IPO

概述： SoftBank 获得由 JPMorgan、Goldman Sachs 和四家日本银行提供的 400 亿美元无担保贷款，用于支付其对 OpenAI 1100 亿美元融资中的 300 亿美元承诺。关键细节：贷款期限仅 12 个月，暗示贷方认为 OpenAI 的 IPO 将在年内发生，届时 SoftBank 可通过 IPO 获得流动性偿债。

技术/产业意义： 如果 OpenAI 年内 IPO，将是有史以来规模最大的 IPO 之一。对中国 AI 产业的影响：(1) 全球 AI 资本将进一步向头部集中 (2) 估值对标效应可能推高中国 AI 公司估值 (3) OpenAI 获得更多资金意味着更激烈的全球竞争。

深度分析：

无担保 + 12 个月期限：异常激进的贷款结构，银行显然对 OpenAI IPO 有强信心
SoftBank 累计投注 OpenAI 超 600 亿美元——这是有史以来最大的单一 AI 赌注
IPO 估值可能超万亿美元，将重新定义 AI 产业的资本格局

评论观察：

🟢 支持：顶级投行的参与表明对 AI 产业长期价值的认可
🔴 质疑：OpenAI 仍在巨额亏损中运营；万一 IPO 延迟，SoftBank 面临巨大再融资压力

信源： https://techcrunch.com/2026/03/27/why-softbanks-new-40b-loan-points-to-a-2026-openai-ipo/

关联行动： 关注 OpenAI IPO 时间表对中国 AI 创业融资环境的传导效应

14. SK hynix 拟赴美上市，可能终结”RAMmageddon”存储器荒

概述： 韩国存储芯片巨头 SK hynix 已向美国 SEC 秘密提交 F-1 注册表，计划 2026 年下半年赴美上市（ADR），预计融资 100-140 亿美元。公司同时宣布将从 ASML 采购 79 亿美元的 EUV 光刻设备，并计划到 2050 年在龙仁投资 4000 亿美元建设半导体集群。此举引发连锁反应——三星投资者 Artisan Partners 也开始推动三星赴美上市。

技术/产业意义： SK hynix 是 HBM（高带宽存储器）的全球领先供应商，而 HBM 是 AI 芯片（如 NVIDIA H100/B200）的核心组件。赴美上市将大幅提升其融资能力，加速 HBM 产能扩张，有望缓解持续至 2027 年的”RAMmageddon”全球存储器荒。对中国而言：国内存储器企业（长江存储、合肥长鑫）面临的竞争压力将进一步加大。

深度分析：

估值修复：SK hynix 在韩国市值约 4400 亿美元，但估值倍数低于美国同业（如 Micron）
TSMC 先例：台积电 ADR 在 AI 需求驱动下多次跑赢台湾本土股价
79 亿美元 ASML 订单：确保 HBM 扩产所需的先进制程产能
RAMmageddon 背景：AI 数据中心的存储需求导致全球性内存短缺，Nature 预测至少持续到 2027 年

评论观察：

🟢 支持：赴美上市将释放巨大融资能力，加速 HBM 供给
🔴 质疑：新股发行可能稀释现有股东权益；SK Square 20% 最低持股要求限制了融资空间

信源： https://techcrunch.com/2026/03/27/memory-chip-giant-sk-hynix-could-help-end-rammageddon-with-blockbuster-us-ipo/

关联行动： 关注三星是否跟进赴美上市，以及对中国存储产业的连锁影响

15. ⭐ 豆包新版深度思考功能正式测试——“边想边搜”

概述： 字节跳动 3 月 28 日宣布旗下 AI 助手豆包新版深度思考功能正式测试。该功能实现了”边想边搜”——结合推理链和搜索，可以自动识别缺失信息、制定搜索策略，为用户提供更全面准确的结果。例如在旅行规划场景中，通过搜索综合航班、酒店、景点、天气等各方面信息为用户撰写完备攻略。

技术/产业意义： “边想边搜”代表了 AI 助手从”问答式”向”主动规划式”的转型。在豆包月活 3.15 亿的巨大用户基数下，这一功能将直接改变用户的信息获取方式，对百度搜索和传统信息聚合类产品构成威胁。

深度分析：

技术路线：推理链（Chain-of-Thought）+ 搜索增强生成（RAG），自动判断何时需要补充外部信息
竞品对比：类似 Perplexity 的 Deep Research、Google 的 AI Overview，但更强调多步推理中的动态搜索
商业意义：深度思考功能将大幅增加 Token 消耗（与同日报道的 Token 暴涨 1400 倍呼应），推高字节 AI 基础设施成本
生态影响：豆包作为中国月活最高的 AI 助手，此功能可能引发行业跟进

评论观察：

🟢 支持：推理+搜索的融合是 AI 助手的必然演进方向，豆包率先落地值得关注
🔴 质疑：深度思考的响应速度和搜索结果质量仍需大规模用户验证

信源： https://news.pconline.com.cn/1907/19076153.html

关联行动： 关注深度思考功能的用户反馈及对豆包日活数据的影响

16. ⭐ 腾讯撤销近十年 AI Lab 并入大模型体系，混元 3.0 即将发布

概述： 3 月 27 日 2026 腾讯云城市峰会上海站上，腾讯集团高级执行副总裁汤道生宣布 AI Lab 正式撤销建制，全部并入大模型研发体系，由腾讯首席 AI 科学家姚顺雨（27 岁，前 OpenAI 研究员，普林斯顿博士）统筹。同时宣布混元 3.0 即将发布，新版本在激活参数大幅降低的同时，复杂推理、长记忆、多轮追问和 Agent 能力均有显著提升。会上还发布了 Agent 产品全景图（WorkBuddy+QClaw 组合），并披露 CodeBuddy 已覆盖腾讯超 90% 工程师。汤道生提出”脚手架（Harness）工程”决定 AI 落地成败。

技术/产业意义： 这是中国大厂中最激进的组织架构调整——将存续近十年的 AI Lab 整建制撤销并入大模型体系，表明腾讯已全面押注大模型路线。27 岁的姚顺雨成为中国头部科技公司中最年轻的 AI 技术统筹者，其 OpenAI 背景和学术实力是腾讯追赶第一梯队的关键筹码。

深度分析：

组织变革：AI Lab（2016 年成立）撤销建制是腾讯 AI 战略从”实验室模式”转向”产品化模式”的标志
人事信号：姚顺雨的任命反映了腾讯对前沿研究能力的渴求——普林斯顿博士、前 OpenAI 研究员的背景在中国大厂中极为稀缺
混元 3.0 亮点：激活参数降低意味着推理成本下降，同时能力提升，对标 DeepSeek 的”性价比”路线
Agent 生态：发布 WorkBuddy+QClaw Agent 产品全景图，显示腾讯正在构建完整的 Agent 产品矩阵
CodeBuddy 覆盖超 90% 工程师：内部工具渗透率极高，为外部商业化积累了充分验证
汤道生”脚手架工程”概念：与 Anthropic 同期推出的 Harness 理念不谋而合，说明行业对 AI 落地方法论正在形成共识

评论观察：

🟢 支持：组织架构与技术路线同步调整，显示腾讯 All-in 大模型的决心
🔴 质疑：AI Lab 撤销可能导致基础研究能力断层；混元系列此前在公开评测中排名相对落后，3.0 能否实质性追赶待观察

信源： https://news.qq.com/rain/a/20260327A07N9L00 / https://cxgn.cn/9085.html

关联行动： 关注混元 3.0 的发布时间和公开评测表现，以及 Agent 产品矩阵的实际落地效果

17. 百度文心 5.0（ERNIE 5.0）正式发布——多模态全面升级

概述： 百度 2026 年 3 月 26 日发布文心 5.0，实现从单一对话到多模态智能的全面升级。新版本支持文本、图像、语音多模态交互，在中文理解、文化表达、创意写作等领域展现出独特优势。

技术/产业意义： 作为百度 AI 战略的核心底座，文心 5.0 的发布是对近期豆包、通义千问等竞品密集迭代的回应。多模态能力的全面升级使文心在产品形态上与 GPT-4o、Gemini 等国际头部模型对齐，但百度在中文理解和文化表达上的深耕形成了差异化优势。

深度分析：

多模态升级：从文本为主扩展到文本+图像+语音全模态，对标 GPT-4o 的多模态路线
中文优势：在中文理解、古诗词创作、文化表达等方面有独特竞争力
生态挑战：百度在 AI 应用层（文心一言 APP）的月活增长已明显落后于豆包和 Kimi
与钛媒体榜单呼应：文心在 2026 年 3 月大模型十强榜中排名第七，反映了其市场地位的下滑

评论观察：

🟢 支持：多模态是大模型的必然演进方向，百度技术积累深厚
🔴 质疑：百度 AI 的用户增长和商业化进展相比字节、阿里已显疲态

信源： https://www.aihowhub.com/ai-tools/ai-writing-tool/wenxinyiyan/

关联行动： 关注文心 5.0 在公开评测中的多模态表现及百度 AI 应用月活变化

18. 钉钉 CLI 以 Apache-2.0 协议正式开源

概述： 3 月 27 日，阿里巴巴旗下钉钉 CLI 正式上架 GitHub，以 Apache-2.0 协议开源。首批开放 AI 表格、日历、日志、待办、机器人、通讯录、DING 消息、考勤、开放平台文档、工作台共 10 项核心产品能力。原生支持 Claude Code、Cursor 等主流 AI 编程与 Agent 执行环境。

技术/产业意义： 这是中国大厂首次面向国际 AI Agent 生态做深度开源集成。钉钉 CLI 不仅是一个命令行工具，更是连接中国最大企业协作平台与国际 AI Agent 生态的桥梁。支持 Claude Code 和 Cursor 意味着海外开发者可以直接通过 AI Agent 操作钉钉生态内的企业数据和流程。

深度分析：

开源策略：Apache-2.0 是最宽松的开源协议之一，对商业使用无限制，显示钉钉拥抱国际生态的诚意
10 项能力覆盖：从日历到考勤，覆盖企业日常运营的核心场景
AI Agent 适配：原生支持 Claude Code/Cursor，降低了 Agent 接入企业系统的门槛
国际化信号：选择 GitHub 而非 Gitee 发布，目标受众明确指向国际开发者社区
与 Anthropic Harness 呼应：钉钉 CLI 可作为 AI Agent 落地企业场景的”脚手架”组件

评论观察：

🟢 支持：开源+国际化的组合拳，可能成为中国企业软件国际化的新范式
🔴 质疑：钉钉在海外市场认知度有限，开源能否转化为实际采用待观察

信源： 36氪快讯

关联行动： 关注钉钉 CLI 在 GitHub 上的 Star 增长和国际开发者社区的反馈

19. 智谱 AI 发布 GLM-4.7 系列——面向 Agentic Coding 深度优化

概述： 智谱 AI 发布 GLM-4.7 系列模型，强化了编码能力、长程任务规划与工具协同，在多个公开基准中取得开源模型中的出色表现。通用能力同步提升，回复更简洁自然，写作更具沉浸感。

技术/产业意义： GLM-4.7 系列明确定位于 Agentic Coding 场景，是中国开源模型中首个以 Agent 编程为核心优化方向的系列。在 Claude Code、Cursor 等 AI 编程工具快速普及的背景下，针对 Agent 执行环境的深度优化将成为模型竞争的新维度。

信源： https://docs.bigmodel.cn/cn/guide/models/text/glm-4.7

关联行动： 关注 GLM-4.7 在 SWE-bench 等 Agent 编程基准上的表现

20. 钛媒体发布 2026 年 3 月中国通用大模型十强榜

概述： 钛媒体发布 2026 年 3 月中国通用大模型十强榜单：豆包（字节）以月活 3.15 亿、日活破亿登顶；通义千问（阿里）位居第二，LMArena 全球第 6、中国第 1；DeepSeek 第三，“性价比之王”称号稳固；智谱 AI 第四、Kimi 第五、MiniMax 第六、百度文心第七、腾讯元宝第八、阶跃星辰第九、小米 MiMo 第十。

技术/产业意义： 榜单反映了中国大模型市场的最新格局——字节跳动凭借豆包的用户规模优势遥遥领先，阿里在技术评测中领跑，DeepSeek 以极致性价比守住第三。值得关注的是小米 MiMo 首次入榜第十位，显示手机厂商在端侧 AI 的布局正在转化为通用模型能力。

信源： https://www.firecat-web.com/daily-news/3495

关联行动： 持续追踪月度榜单变化，重点关注 DeepSeek 和 Kimi 的排名走势

📊 全球要闻（与中国 AI 相关）

G-1. OpenAI Codex 新增插件系统，追赶 Claude Code

概述： OpenAI 为 Codex 添加了插件支持，包括技能提示、应用集成和 MCP 服务器。可用插件包括 GitHub、Gmail、Box、Cloudflare、Vercel 等。这是对 Anthropic Claude Code 早前推出类似功能的跟进。Ars Technica 评论：“如果你和开发者聊天，你会发现 Claude Code 用户远多于 Codex 用户。”

信源： https://arstechnica.com/ai/2026/03/openai-brings-plugins-to-codex-closing-some-of-the-gap-with-claude-code/

G-2. Cursor 发布实时 RL 训练方法：每 5 小时更新一次模型

概述： AI 编程工具 Cursor 公开了其”实时强化学习”（Real-time RL）方法。通过收集用户真实交互数据作为奖励信号，Cursor 可以每 5 小时生成一个改进的 Composer 模型检查点。A/B 测试显示：代码编辑持久率 +2.28%，用户不满意跟进 -3.13%，延迟 -10.3%。

信源： https://cursor.com/blog/real-time-rl-for-composer

G-3. Apple 与 Google 达成协议：可使用 Gemini 蒸馏训练小模型

概述： 据 The Information 报道，Apple 在 1 月宣布的与 Google 合作中获得了 Gemini 大模型的完整数据中心访问权限，可通过蒸馏方法训练适配 Apple 设备的小模型。

信源： The Verge / The Information

🇪🇺 欧洲区

15. ⭐ Mistral AI 发布 Voxtral TTS — 首个开源权重的前沿文本转语音模型

概述： 法国 AI 公司 Mistral AI 于 3 月 23 日发布了 Voxtral TTS，这是其首个文本转语音模型。该模型仅 4B 参数，支持 9 种语言（英/法/德/西/荷/葡/意/印地/阿拉伯语），在多语言语音生成上达到 SOTA 水平。人类评测显示其自然度超越 ElevenLabs Flash v2.5，与 ElevenLabs v3 持平，模型延迟仅 70ms。

技术/产业意义： 这标志着 Mistral 正式进入语音 AI 领域，从纯文本 LLM 扩展到多模态。开源权重（CC BY NC 4.0 授权，发布在 HuggingFace）使其成为企业构建自有语音 AI 栈的首选方案，打破 ElevenLabs 的商业垄断。

深度分析：

架构：基于 Ministral 3B 的 transformer 解码器骨干（3.4B 参数）+ 390M 流匹配声学 transformer + 300M 自研神经音频编解码器
自研编解码器：语义 VQ（8192 词汇表）+ 声学 FSQ（36 维、21 级），12.5Hz 帧率，因果处理
零样本语音克隆：仅需 3 秒参考音频即可适配新声音，捕捉口音、语调、节奏甚至口语化停顿
跨语言迁移：可用法语语音提示生成带法语口音的英语语音，适合语音翻译管道
定价：API $0.016/1k 字符，显著低于 ElevenLabs
实时因子 RTF ≈ 9.7x，原生支持最长 2 分钟音频生成

评论观察：

🟢 支持：开源权重 + 低成本 + 高质量的组合在语音 AI 领域前所未有；对 ElevenLabs 形成强力挑战
🔴 质疑：CC BY NC 4.0 限制了商业使用；9 种语言覆盖有限（缺少中日韩等亚洲语言）

信源： https://mistral.ai/news/voxtral-tts

关联行动： 关注 Voxtral TTS 的社区反馈和商业授权计划；语音 Agent 开发者应评估其与 ElevenLabs 的性价比

16. ⭐ DeepMind 发布 AGI 认知评估框架 + $200K Kaggle 竞赛

概述： Google DeepMind 于 3 月 17 日发布论文《Measuring Progress Toward AGI: A Cognitive Taxonomy》，提出基于认知科学的 AGI 进展评估框架，识别了通向通用智能的 10 项关键认知能力。同时与 Kaggle 合作推出 $200,000 奖金的黑客马拉松，邀请社区为其中 5 项缺乏评估工具的认知能力（学习、元认知、注意力、执行功能、社会认知）设计评估方法。

技术/产业意义： 这是学术界首次系统性尝试将认知科学方法论引入 AI 能力评估。在 Jensen Huang 声称”我们已实现 AGI”（本周 Lex Fridman 播客）的背景下，DeepMind 的框架试图为”AGI”这个模糊概念建立科学可量化的标准。

深度分析：

10 项认知能力：感知、生成、注意力、学习、记忆、推理、元认知、执行功能、问题解决、社会认知
三阶段评估协议：(1) 在认知任务套件上评估 AI (2) 收集人类基线数据 (3) 将 AI 表现映射到人类分布
评估缺口：学习、元认知、注意力、执行功能、社会认知是当前评估工具最薄弱的领域
Kaggle 竞赛细节：5 个赛道各 $10K×2 名获奖者 + 4 个$ 25K 总体最佳奖，3/17-4/16 提交期
与 Jensen 的 AGI 声明形成有趣对比：Huang 说 AGI 已实现，DeepMind 说我们还缺乏衡量 AGI 的工具

评论观察：

🟢 支持：将 AGI 评估从”vibes”提升到科学方法论，是里程碑式的工作
🔴 质疑：认知科学框架是否真的适用于 AI 系统？人类认知≠最优路径

信源： https://blog.google/innovation-and-ai/models-and-research/google-deepmind/measuring-agi-cognitive-framework/

关联行动： 研究者应关注 Kaggle 竞赛（截止 4/16）；AGI 评估方法论值得长期跟踪

17. ⭐ DeepMind 发布 AI 有害操纵评估框架 — 万人规模实验揭示 AI 操纵风险

概述： Google DeepMind 于 3 月 26 日发布研究论文（arXiv:2603.25326），建立了首个经实证验证的 AI 有害操纵评估工具包。研究涉及 10,101 名参与者，横跨美国、英国和印度三个地区，在公共政策、金融和健康三个高风险领域测试了 AI 模型在被提示进行操纵时的效果。

技术/产业意义： 这是全球首个系统性量化 AI 操纵能力的研究。在 EU AI Act 即将执行高风险 AI 系统审核的背景下，这一评估框架为监管提供了科学工具。该研究也纳入了 DeepMind 的前沿安全框架（Frontier Safety Framework），设立了”有害操纵关键能力级别”（CCL）。

深度分析：

核心发现：AI 在被明确指示操纵时确实能产生操纵行为，并能在实验环境中改变参与者的信念和行为
领域差异：AI 在金融领域的操纵效果最强，健康领域最弱
地理差异：不同地区的操纵效果显著不同，美国≠英国≠印度
频率≠效果：AI 尝试操纵的频率（propensity）不能预测操纵的成功率（efficacy）
公开所有测试材料和协议，便于社区复现和扩展
已应用于 Gemini 3 Pro 的安全评估

评论观察：

🟢 支持：首个大规模实证研究，为行业安全标准奠基；公开材料促进社区协作
🔴 质疑：实验室环境 vs 真实世界的外部效度问题；操纵性定义的文化依赖性

信源： https://arxiv.org/abs/2603.25326

关联行动： AI 安全研究者应使用该框架评估自己的模型；政策制定者关注其在 EU AI Act 合规中的应用

18. [B] Hugging Face 生态报告：中国超越美国成为开源 AI 最大下载来源

概述： Hugging Face 于 3 月 17 日发布《State of Open Source on Hugging Face: Spring 2026》年度报告。关键数据：平台用户增至 1300 万，公开模型超 200 万个，数据集超 50 万个。最引人注目的是，中国在过去一年超越美国成为月度下载量最大的来源，中国模型占总下载量的 41%。

技术/产业意义： 这份报告用数据证实了中国在开源 AI 生态中的崛起。DeepSeek R1 的病毒式传播（2025 年 1 月）成为转折点，随后百度、字节跳动、腾讯等企业大幅增加开源发布。独立开发者群体（不隶属任何机构）的份额从 17% 升至 39%，形成了强大的”中间层”生态。

深度分析：

生态集中度：前 200 个模型（0.01%）占总下载量的 49.6%；约半数模型下载量不足 200 次
中国企业开源爆发：百度从 2024 年零发布到 2025 年超 100 个；字节、腾讯发布量各增 8-9 倍
Fortune 500 参与：超 30% 的 Fortune 500 公司在 HF 上有认证账号
NVIDIA 成为最活跃的大厂贡献者
独立开发者崛起：量化、微调、再分发的”中间商”成为生态核心驱动力

评论观察：

🟢 支持：开源生态的民主化趋势不可逆转；中国和独立开发者的崛起丰富了多样性
🔴 质疑：下载量≠实际使用量；高度集中的长尾分布意味着大部分模型实际影响有限

信源： https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026

关联行动： 关注 HF 生态中中国模型的实际使用趋势和社区反馈

19. [B] EU 电池法规阻碍 Meta AI 眼镜在欧洲扩张

概述： 据 The Verge 报道，除了供应限制和 AI 法规外，欧盟要求 2027 年前设备必须具备可拆卸电池的规定正在阻碍 Meta Ray-Ban Display 智能眼镜在欧洲的发布计划。Meta 此前已因”前所未有的需求和有限库存”暂停了在法国、意大利、加拿大和英国的上市计划。Meta 正在与欧盟讨论可能的变通方案。

技术/产业意义： 这是欧洲技术法规影响 AI 硬件产品全球化的典型案例。EU AI Act + GDPR + 电池法规的三重障碍，使得欧洲成为 AI 硬件产品最难进入的市场之一。这可能推动欧洲在 AI 可穿戴领域落后于美国和亚洲。

深度分析：

三重障碍：AI 法规（数据处理和隐私）+ 电池可拆卸要求 + 供应链限制
Meta 反应：1 月 CES 上宣布暂停国际扩张，等待列表已排到 2026 年深
电池法规合规：对智能眼镜等小型可穿戴设备而言，可拆卸电池在设计上几乎不可能
竞争影响：给 Apple Vision Pro 和其他 AR/VR 设备在欧洲市场的计划也敲响警钟

评论观察：

🟢 支持：欧盟法规旨在保护消费者权益和环境，目标正当
🔴 质疑：过于严格的硬件法规可能导致欧洲在 AI 可穿戴领域被边缘化

信源： https://www.theverge.com/news/856216/meta-ray-ban-display-smart-glasses-international-expansion-paused

关联行动： 关注 Meta 与 EU 的谈判进展以及可能的法规豁免机制

20. [B] Jensen Huang 宣称”我们已实现 AGI” — 引发行业热议

概述： NVIDIA CEO 黄仁勋在本周 Lex Fridman 播客中表示”I think we’ve achieved AGI”（我认为我们已实现 AGI）。他以 OpenClaw 的病毒式成功为例，指出人们正用个人 AI Agent 做各种事情。但随后他稍作收回，承认”10 万个 Agent 构建 NVIDIA 的概率为零”。

技术/产业意义： 作为 AI 算力产业的核心受益者，Huang 的 AGI 声明有明显的商业动机——维持市场对 AI 基础设施的投资热情。这与 DeepMind 同期发布的 AGI 评估框架形成鲜明对比：一个说已实现，另一个说还缺乏衡量工具。

深度分析：

AGI 定义争议：Fridman 定义 AGI 为”能创办并运营价值 10 亿美元公司的 AI”，Huang 对此表示同意但实际例证偏弱
OpenClaw 作为论据：Huang 提到 OpenClaw 的成功，但将 Agent 工具化≠AGI
行业趋势：多家科技公司正在重新定义或淡化 AGI 概念，用”Level 5 AI”等替代术语
市场影响：AGI 声明有助于维持 NVIDIA 股价和 AI 投资叙事

评论观察：

🟢 支持：从实用主义角度看，当前 AI 确实在很多任务上已超越人类平均水平
🔴 质疑：“如果定义足够模糊，任何东西都可以是 AGI”——The Verge 评论区最高赞

信源： https://www.theverge.com/ai-artificial-intelligence/899086/jensen-huang-nvidia-agi

关联行动： 关注 AGI 定义之争对 AI 投资和监管的实际影响

🌐 学术/硬件

21. ⭐ [A] NVIDIA AVO — AI Agent 自动进化出超越 cuDNN 和 FlashAttention-4 的注意力内核

概述： NVIDIA 研究团队发布论文《AVO: Agentic Variation Operators for Autonomous Evolutionary Search》，提出用自主编码 Agent 替代传统进化搜索中的固定变异/交叉算子。在 Blackwell B200 GPU 上连续运行 7 天自主进化后，AVO 发现的注意力内核比 cuDNN 快 3.5%，比 FlashAttention-4 快 10.5%。迁移到分组查询注意力（GQA）仅需 30 分钟额外适配。

技术/产业意义： 这是”AI 自我优化”的里程碑——AI Agent 不仅能写代码，还能通过进化搜索发现超越人类专家工程的微架构优化。这预示着 AI 基础设施优化的范式变革：从手工调优到 Agent 自动发现。

深度分析：

核心创新：将 LLM Agent 从”候选生成器”提升为”变异算子”——Agent 自主查阅代码谱系、领域知识库、执行反馈来提议、修复、批判和验证实现
硬件平台：NVIDIA Blackwell B200 GPU（最新一代）
性能提升：多头注意力 MHA 比 cuDNN 快 3.5%、比 FlashAttention-4 快 10.5%
GQA 迁移：仅需 30 分钟适配，获得 7.0%/9.3% 的提升
方法论意义：证明 AI Agent 可以在 AI 系统最核心的组件（注意力计算）上超越人类工程师

评论观察：

🟢 支持：AI 自我优化是通向 ASI 的关键路径之一；实际性能提升显著且可复现
🔴 质疑：7 天计算成本可能非常高；特定 GPU 架构上的优化是否通用

信源： https://arxiv.org/abs/2603.24517

关联行动： 关注 AVO 方法在其他 GPU 内核（如矩阵乘法、通信原语）上的应用

22. ⭐ [A] Kimi 团队发布 Attention Residuals — 挑战 Transformer 基础架构设计

概述： 月之暗面（Moonshot AI）的 Kimi 团队发布论文《Attention Residuals》（arXiv:2603.15031），提出用 softmax 注意力替代传统 Transformer 中固定权重的残差连接。传统 PreNorm+残差会导致隐藏状态随深度不可控增长，逐层贡献被稀释。AttnRes 让每一层通过注意力机制选择性聚合之前层的输出。已在 Kimi Linear 架构（48B 总/3B 活跃参数）上完成 1.4T token 预训练验证。

技术/产业意义： 残差连接是 2015 年以来深度学习最基础的组件之一，修改它需要极大的勇气和严谨的实验。Kimi 团队的工作是首个在大规模（48B 参数）模型上验证非标准残差连接有效性的研究，可能影响下一代 LLM 架构设计。

深度分析：

问题：PreNorm + 固定单位权重残差导致隐藏状态随深度膨胀，后层贡献被前层累积噪声淹没
方案：AttnRes 用 softmax 注意力取代固定单位加权，每层学习选择性聚合前层输出
工程优化：Block AttnRes 将层分组，在组级别做注意力，减少内存开销
实验规模：Kimi Linear（48B/3B MoE），1.4T token 预训练
效果：更均匀的输出幅度和梯度分布，所有评估任务均有改善
Scaling law 验证：改善在不同模型尺寸上一致

评论观察：

🟢 支持：敢于挑战基础架构假设，且在大规模实验中验证——这是高质量研究的典范
🔴 质疑：Block 分组引入了新的超参数；额外注意力计算的成本是否划算

信源： https://arxiv.org/abs/2603.15031

关联行动： 架构研究者应复现和验证；⭐ 待深度解读

23. [B] S2D2 — Diffusion LLM 的免训练自推测解码，加速最高 4.7×

概述： Red Hat AI 团队发布论文《S2D2: Fast Decoding for Diffusion LLMs via Training-Free Self-Speculation》（arXiv:2603.25702），提出一种无需额外训练的自推测解码框架。关键洞察：block-diffusion 语言模型在 block size=1 时退化为自回归模型，因此同一预训练模型可同时充当草稿者和验证者。在 SDAR 上实现最高 4.7× 加速。

技术/产业意义： Diffusion LLM 是 Transformer 之后的热门替代架构之一（如 LLaDA、SDAR 等）。S2D2 解决了其实际部署的关键瓶颈——少步推理的不稳定性，使 diffusion LLM 更接近实用。

深度分析：

核心思想：block-diffusion 的并行生成与自回归的精确验证混合——最佳两全
免训练：不需要额外模型或训练，零成本即可应用
轻量路由策略：决定何时值得执行验证步骤
在三大 block-diffusion 架构族上均有效
LLaDA2.1-Mini 上：4.4× 加速且精度略有提高

评论观察：

🟢 支持：免训练 + 通用性强 + 显著加速——对 diffusion LLM 生态的实用价值巨大
🔴 质疑：diffusion LLM 整体仍处于早期阶段，与主流自回归模型的差距较大

信源： https://arxiv.org/abs/2603.25702

关联行动： diffusion LLM 开发者应评估 S2D2 在自己模型上的效果

24. [B] FinMCP-Bench — 金融领域 MCP 工具使用评估基准

概述： 阿里通义 DianJin 团队发布 FinMCP-Bench（arXiv:2603.24943），这是首个评估 LLM 在真实金融场景中通过 Model Context Protocol (MCP) 进行工具调用的基准。包含 613 个样本，涵盖 10 大场景、33 个子场景，使用 65 个真实金融 MCP 服务器，支持单工具、多工具和多轮三种复杂度。

技术/产业意义： MCP 正在成为 AI Agent 与外部工具交互的标准协议。FinMCP-Bench 是首个在特定垂直领域（金融）系统评估 MCP 工具使用能力的基准，填补了从通用基准到领域特化评估的空白。

深度分析：

65 个真实 MCP 服务器：涵盖股票行情、投资组合分析、风险评估等实际金融工具
三种复杂度：单工具→多工具→多轮，模拟真实工作流
评估指标：工具调用准确率 + 推理能力分离度量
阿里出品：Qwen DianJin 团队，基于通义千问的金融 AI 实践

评论观察：

🟢 支持：金融 + MCP 的结合极具实用价值；标准化评估推动领域进步
🔴 质疑：基准的覆盖范围是否足够代表复杂金融场景

信源： https://arxiv.org/abs/2603.24943

关联行动： 金融 AI 开发者应在此基准上评估自己的 Agent 系统

25. ⭐ [A] GGML/llama.cpp 加入 Hugging Face — 本地 AI 推理生态里程碑

概述： Hugging Face 于 2 月 20 日宣布 GGML 创始人 Georgi Gerganov 及其团队正式加入 HF。llama.cpp 是本地 AI 推理的基础构建块，transformers 是模型定义的基础构建块——两者合并被称为”天作之合”。HF 将为项目提供长期可持续资源，llama.cpp 保持 100% 开源且社区驱动。

技术/产业意义： 这可能是 2026 年开源 AI 最重要的生态事件之一。llama.cpp 是 local AI 运动的核心——几乎所有在消费级硬件上运行 LLM 的应用都直接或间接依赖它。加入 HF 意味着更好的资源保障、更紧密的 transformers 集成、以及更便捷的模型发布到推理的全链路。

深度分析：

技术聚焦：transformers 模型定义 → llama.cpp 推理执行的”单击式”无缝对接
改善打包和用户体验：本地推理成为云推理的真正竞争替代
长期愿景：“提供构建块使开源超级智能对全世界可及”
团队连续性：Gerganov 团队保持完全技术自主权和社区领导力
490 个 upvotes——HF 博客历史最高互动量之一

评论观察：

🟢 支持：确保了 local AI 最关键基础设施的长期可持续性；transformers + llama.cpp = 完整的开源 AI 栈
🔴 质疑：商业化压力是否会影响 llama.cpp 的开源纯度

信源： https://huggingface.co/blog/ggml-joins-hf

关联行动： 关注 transformers ↔ llama.cpp 的新集成特性和模型发布流程优化

26. [B] Sebastian Raschka 最新文章：LLM 注意力变体可视化指南

概述： 机器学习教育领域最具影响力的博主 Sebastian Raschka 于 3 月 22 日发布了《A Visual Guide to Attention Variants in Modern LLMs》，系统梳理了现代 LLM 中使用的各种注意力变体：从 MHA、GQA 到 MLA、稀疏注意力和混合架构。同时更新了 LLM Architecture Gallery（已收录 45 个架构），并推出海报版。

技术/产业意义： Raschka 的文章一直是 LLM 技术学习的黄金标准。这篇注意力变体综述对于理解 DeepSeek V3/V4（MLA）、Kimi（稀疏注意力）、Qwen3（GQA）等模型的架构选择至关重要。45 个架构的 Gallery 是目前最全面的 LLM 架构比较资源。

深度分析：

覆盖范围：MHA → GQA → MLA → 稀疏注意力 → 混合架构 → 线性注意力
可视化卡片：每个架构配有 visual model card，参数规模/注意力头数/KV 缓存配置一目了然
教育价值：从 RNN 时代的注意力起源讲到现代变体，适合不同水平的读者
Gallery 持续更新：计划定期加入新架构

评论观察：

🟢 支持：Raschka 的可视化和讲解质量无出其右；LLM Architecture Gallery 是不可替代的参考资源
🔴 质疑：无——这是纯教育内容，质量一如既往

信源： https://magazine.sebastianraschka.com/p/visual-attention-variants

关联行动： LLM 开发者和研究者应收藏 Architecture Gallery 作为参考

27. [B] Intel Arc Pro B70 “Big Battlemage” 发布 — 32GB VRAM，面向 AI 推理

概述： Intel 于 3 月 25 日发布 Arc Pro B70 桌面 GPU（“Big Battlemage”），配备 32GB VRAM 和最多 32 个 Xe2 核心，起价 $949。还有 20 核心的 B65 Pro 变体由合作伙伴设计。这是 Intel 期待已久的大尺寸 GPU，定位为 AI 推理和专业工作负载。

技术/产业意义： 32GB VRAM 在 $949 价位上非常有竞争力（NVIDIA RTX 4090 24GB 约$ 1600），对本地 AI 推理用户（运行 llama.cpp 等）极具吸引力。这是 Intel 在 AI GPU 市场发起的一次认真尝试。

深度分析：

32GB VRAM：可运行 Qwen 32B、DeepSeek 系列等中大型模型的量化版本
Xe2 架构：Intel 最新 GPU 架构，支持 AI 推理优化
定位：专业/AI 推理，非游戏（The Verge 遗憾地指出”游戏版就好了”）
与 NVIDIA 对比：价格竞争力强，但 CUDA 生态优势仍是 NVIDIA 的护城河
ROCm/oneAPI 生态问题：Intel 的软件栈（oneAPI）成熟度远低于 CUDA

评论观察：

🟢 支持：$949/32GB 的价格性能比在 local AI 推理市场极具竞争力
🔴 质疑：llama.cpp/GGML 对 Intel GPU 的支持程度有限；生态差距可能抵消硬件优势

信源： https://www.theverge.com/ai-artificial-intelligence （Verge AI 页面，3月25日）

关联行动： local AI 用户关注 llama.cpp 对 Intel Arc Pro B70 的支持进展

28. [B] Natural-Language Agent Harnesses (NLAHs) — 用自然语言定义 Agent 控制逻辑

概述： 新论文《Natural-Language Agent Harnesses》（arXiv:2603.25723）提出将 Agent 的控制逻辑从代码中外化为可编辑的自然语言，并引入 Intelligent Harness Runtime (IHR) 共享运行时来执行这些自然语言定义的 harness。在编码和计算机使用基准上进行了控制实验。

技术/产业意义： 当前 Agent 性能越来越依赖”harness engineering”（控制逻辑工程），但 harness 设计通常深藏在代码中，难以迁移、比较和研究。NLAHs 使 harness 成为可移植的科学对象，可能推动 Agent 工程从黑箱走向可复现。

深度分析：

核心思想：Agent 控制逻辑从代码→自然语言，可编辑、可移植、可比较
IHR 运行时：通过显式契约、持久化工件和轻量适配器执行自然语言 harness
实验：代码生成和计算机使用基准上的可行性验证、模块消融、代码→文本 harness 迁移
意义：使 Agent 研究从”哪个 Agent 最好”转向”哪个 harness 设计最好”

评论观察：

🟢 支持：使 harness engineering 可复现和可科学研究，是 Agent 领域的重要方法论进步
🔴 质疑：自然语言定义的精确性是否足够？执行效率如何？

信源： https://arxiv.org/abs/2603.25723

关联行动： Agent 开发者和研究者关注 harness 工程的可复现性

29. [B] OpenClaw-RL — 通过对话训练任意 Agent

概述： Trending 论文《OpenClaw-RL: Train Any Agent Simply by Talking》（arXiv:2603.10165）提出一种框架，使用异步训练配合 PRM 评判和事后引导蒸馏，从多种交互模态的下一状态信号中学习策略。核心理念是通过自然语言对话来训练 Agent，而非传统的奖励工程。

技术/产业意义： 随着 OpenClaw 成为最流行的 Agent 框架，如何高效训练 Agent 成为关键问题。OpenClaw-RL 提出了一种低门槛、高泛化的训练范式，可能降低 Agent 开发的技术壁垒。

深度分析：

核心方法：PRM（过程奖励模型）作为评判 + 事后引导蒸馏
异步训练：支持大规模并行训练
多模态信号：不限于文本，支持多种交互模态
“Talk to Train”范式：通过对话定义任务和反馈，降低训练门槛

评论观察：

🟢 支持：极大降低 Agent 训练门槛；与 OpenClaw 生态天然契合
🔴 质疑：对话式训练的信号稀疏性问题；PRM 评判的可靠性

信源： https://arxiv.org/abs/2603.10165

关联行动： OpenClaw Agent 开发者应评估此训练框架

30. [B] MiroThinker v1.0 — 开源研究 Agent 刷新多项基准

概述： 论文《MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling》提出了一种开源研究 Agent，72B 变体在 GAIA 上达 81.9%、HLE 37.7%、BrowseComp 47.1%、BrowseComp-ZH 55.6%，接近 GPT-5-high 水平。关键创新是”交互缩放”——通过 RL 训练模型处理更深、更频繁的 Agent-环境交互（256K 上下文窗口中最多 600 次工具调用）。

技术/产业意义： 这是首个提出”交互缩放”作为第三维度（与模型规模、上下文长度并列）的研究。证明交互深度也具有类似 scaling law 的可预测性行为，为下一代研究 Agent 的设计提供了新方向。

深度分析：

三维缩放：模型规模 + 上下文长度 + 交互深度
600 次工具调用/任务：远超传统 Agent 的交互密度
72B 参数，256K 上下文窗口
开源：代码和权重公开
与 GPT-5-high 接近：开源模型在研究 Agent 任务上首次达到这一水平

评论观察：

🟢 支持：交互缩放是重要的新发现；开源 Agent 性能首次接近闭源前沿
🔴 质疑：600 次工具调用的计算成本问题；特定基准上的表现是否泛化

信源： https://arxiv.org/abs/2511.11793

关联行动： ⭐ 待深度解读；Agent 研究者应关注”交互缩放”这一新维度

🇺🇸 北美区

N-1. [A] ⭐ OpenAI Codex 新增插件系统——追赶 Claude Code 的生态战

概述： OpenAI 为 Codex 添加了插件支持，包括技能提示（Skills）、应用集成和 MCP 服务器。可用插件包括 GitHub、Gmail、Box、Cloudflare、Vercel 等，通过可搜索的插件库一键安装。Ars Technica 评论指出这是对 Claude Code 早期推出类似功能的追赶——“如果你和开发者聊天，你会发现 Claude Code 用户远多于 Codex 用户。”

技术/产业意义： 编码 Agent 竞争进入”生态战”阶段。Claude Code 的插件/技能系统已获广泛采用，OpenAI 在跟进。多个插件与编码无直接关系（Gmail、Box），暗示 Codex 正从”编码工具”向”通用知识工作 Agent”扩展。

深度分析：

追赶态势：Claude Code 的插件系统更早且更成熟，OpenAI 在后发
超越编码：Gmail、Box 等非编码插件暗示更广泛的知识工作定位
一键安装：降低了 MCP 配置门槛，对技术门槛较低的用户更友好
市场格局：Codex vs Claude Code vs Gemini CLI 三足鼎立

评论观察：

🟢 支持：插件标准化降低了配置成本；扩展 Codex 使用场景
🔴 质疑：Claude Code 已建立用户优势，后发追赶需要差异化

信源： https://arstechnica.com/ai/2026/03/openai-brings-plugins-to-codex-closing-some-of-the-gap-with-claude-code/

N-2. [A] OpenAI-Helion 核聚变电力交易——Sam Altman 退出 Helion 董事会

概述： Sam Altman 宣布退出核聚变创业公司 Helion Energy 董事会。与此同时，Axios 报道 OpenAI 正与 Helion 进行”高级谈判”，可能签署核聚变电力购买协议。这是 OpenAI 在能源布局上的重大动作——AI 数据中心的能源需求正推动科技公司直接投资清洁能源。

技术/产业意义： 核聚变被视为清洁能源的”圣杯”，但距离商业化仍有重大科学挑战。OpenAI 直接与 Helion 谈判电力采购，与 Meta 10 月数据中心（上期报道）、Google 核电协议等形成趋势——大型 AI 公司正在绕过传统电力供应商，直接投资/签约新型能源。Altman 退出 Helion 董事会是为避免利益冲突。

信源： Reuters / Axios / The Verge

N-3. [B] Google AI 搜索被指泄露 Epstein 受害者个人信息——AI 隐私诉讼新前沿

概述： 一位自称 Jeffrey Epstein 性侵受害者的匿名原告在集体诉讼中起诉特朗普政府和 Google，指控 Google AI 搜索工具不当披露了受害者的个人数据。投诉书称”Google 未能删除、去索引或阻止访问涉事材料”。

技术/产业意义： 这是 AI 搜索/生成工具面临的新型法律挑战——当 AI 摘要/引用泄露了受保护的个人信息时，搜索引擎运营商是否承担责任？该案可能成为 AI 隐私法律的重要先例。

信源： The Verge / Lauren Feiner 报道

N-4. [B] 音乐行业秘密拥抱 AI——“不问不说”的潜规则

概述： Rolling Stone 深度调查揭露，不仅乡村音乐界（此前 The Verge 报道），跨流派的音乐人都在悄悄使用 AI 来实验编曲、制作样本和录制小样。词曲作家 Michelle Lewis 称”没人想承认”，制作人 Young Guru 估计”超过一半”的采样嘻哈音乐现在是用 AI 生成的——用 AI 制作 funk 和 soul 采样，而非授权原始音乐或雇佣乐手。

技术/产业意义： AI 对音乐产业的渗透远超公开承认的程度。“AI 生成采样替代授权/雇佣”模式正在静默重塑音乐制作经济学，直接影响版权许可收入和乐手就业。

信源： Rolling Stone / The Verge

N-5. [B] ⭐ SakanaAI AI-Scientist-v2 GitHub Trending——首篇完全 AI 生成的论文通过同行评审

概述： Sakana AI 的 AI-Scientist-v2 项目在 GitHub Trending 上热门。该系统是首个完全自主的科学研究 Agent，生成了首篇完全由 AI 撰写并通过同行评审的研讨会论文。v2 版本去除了对人工模板的依赖，跨 ML 领域通用化，采用渐进式 Agent 树搜索（由实验管理 Agent 引导）。

技术/产业意义： “AI 独立完成科研全流程并通过同行评审”是 AI 自主能力的里程碑事件。虽然目前限于研讨会级别（非主会议），但证明了完全自主科研的可行性路径。

深度分析：

v1 vs v2：v1 依赖人工模板，成功率高但受限；v2 开放探索，成功率低但范围更广
方法：假说生成 → 实验设计 → 数据分析 → 论文撰写，全自主
支持模型：OpenAI、Gemini、Claude (via Bedrock)
风险提示：执行 LLM 生成的代码存在安全风险，需在沙箱中运行

信源： https://github.com/SakanaAI/AI-Scientist-v2

N-6. [B] Microsoft VibeVoice 开源语音 AI 家族 GitHub Trending——ASR 支持 60 分钟单次处理

概述： Microsoft 的 VibeVoice 开源语音 AI 模型家族在 GitHub Trending 上热门。该项目包含 TTS（文本转语音）和 ASR（语音识别）两大方向。VibeVoice-ASR-7B 支持 60 分钟长音频单次处理，输出结构化转录（含说话人、时间戳、内容），支持自定义热词，覆盖 50+ 语言。ASR 已集成进 Hugging Face Transformers v5.3.0。

技术/产业意义： 与 Mistral Voxtral TTS（欧洲区报道）形成竞争态势。Microsoft VibeVoice 在 ASR 方向更强（60 分钟单次处理是重大突破），且完全开源。核心创新是 7.5Hz 超低帧率连续语音 tokenizer + next-token diffusion 框架。

深度分析：

ASR：7B 参数，60 分钟单次处理，结构化输出（Who/When/What）
TTS：1.5B 参数，支持 90 分钟长文本、4 人多说话人合成
Realtime：0.5B 参数，支持流式文本输入，实时 TTS
9 语言实验性语音 + 11 种英语风格语音
TTS 代码曾因滥用问题被移除后重新开源

信源： https://github.com/microsoft/VibeVoice

概述： oh-my-claudecode（GitHub Stars 13,985，今日 +1,411）在 GitHub Trending 上以极高热度排名前列。该项目是”Teams-first Multi-agent orchestration for Claude Code”——一个面向团队的 Claude Code 多 Agent 编排框架，使多个 Claude Code 实例可以协调工作，解决更大规模的工程问题。

技术/产业意义： Claude Code 生态正在快速扩展。单 Agent Claude Code → 多 Agent Claude Code 协作 → 团队级 Agent 编排，这是编码 Agent 能力的自然进化方向。1 万+ Star + 每日 1400+ 增长说明社区对多 Agent 编码的需求极其旺盛。

信源： https://github.com/Yeachan-Heo/oh-my-claudecode

概述： last30days-skill（12,718 Stars，今日 +2,821）荣登 GitHub Trending 日榜第一。该项目是一个 AI Agent Skill，可跨 Reddit、X/Twitter、YouTube、Hacker News、Polymarket 和通用网络研究任何话题的最近 30 天动态，并生成综合性摘要。

技术/产业意义： Agent Skill 生态正在爆发。这个项目的成功说明”研究型 Agent”是用户需求最旺盛的方向之一——人们希望 AI Agent 能替代他们进行深度信息采集和综合分析。

信源： https://github.com/mvanhorn/last30days-skill

N-9. [B] Anthropic 获联邦法院初步禁令——法官裁定政府惩罚 Anthropic 违宪

概述： 联邦法官 Rita Lin 正式裁定 Anthropic 胜诉，发布初步禁令阻止特朗普政府将 Anthropic 列入国防供应链黑名单的行动。法官在判决中写道”惩罚 Anthropic 是典型的违宪第一修正案报复行为”。此前 Anthropic 因拒绝军事用途而被政府列入风险清单。

技术/产业意义： 这是 AI 公司与政府关系的里程碑判决。法院明确认定政府不能因 AI 公司的安全立场（拒绝军事用途）而惩罚它们——这为其他 AI 公司拒绝特定用途提供了法律先例。

信源： The Verge / 法官 Rita Lin 判决书

📊 KOL 观点精选

（注：本轮因 DuckDuckGo 搜索引擎持续返回 bot detection 限制，KOL 个人推文无法通过 web_search 直接采集。以下基于已采集的新闻源中引用的 KOL 观点进行整理。）

Jensen Huang (NVIDIA CEO)

在 Lex Fridman 播客宣称”我们已实现 AGI”，以 OpenClaw 的成功为例
但随后承认”10 万个 Agent 构建 NVIDIA 的概率为零”
🤔 信号意义：作为 AI 算力最大受益者的 AGI 声明有明显商业动机

Sam Altman (OpenAI CEO)

退出 Helion Energy 董事会，避免利益冲突
OpenAI 与 Helion 进入核聚变电力采购高级谈判
🤔 信号意义：Altman 个人投资与 OpenAI 公司利益的交叉开始受到市场关注

Dario Amodei (Anthropic CEO)

Fortune 报道泄露事件中，提及 Amodei 参加的欧洲 CEO 闭门活动信息也被暴露
“Mythos” 模型被称为”推理、编码和网络安全的阶梯式跃升”
🤔 信号意义：Anthropic 下一代模型的竞争力可能再次拉大与同行的差距

下期追踪问题

Anthropic “Mythos” 模型何时正式发布？ 泄露信息显示能力”阶梯式跃升”，正式发布后的 benchmark 表现将影响全球大模型竞争格局。关注 Anthropic 近期的产品发布公告。
Manus 事件后续：Meta 交易是否被中国政府正式阻止？ 创始人被约谈后，关注：(1) 是否有正式的法律/行政行动 (2) 其他中国 AI 创业公司的出海策略是否调整 (3) Meta 是否有备选方案。
Google TurboQuant 的实际部署时间表？ 目前仅为实验室成果，ICLR 2026 论文发表后关注：(1) 主要云厂商是否集成 (2) 对推理成本的实际影响 (3) 是否催生新的 Jevons 悖论效应。
OpenAI IPO 进程？ SoftBank 12 个月期限贷款暗示年内 IPO。关注：(1) IPO 定价和估值 (2) 对中国 AI 融资环境的传导效应 (3) 中国对标公司（如 DeepSeek、智谱）的估值变化。
中国 Token 消耗暴涨后的算力瓶颈如何解决？ 日消耗 140 万亿 Token 对应的算力需求是否能被国产芯片满足？关注华为昇腾、RISC-V 芯片的实际部署进展。
Mistral Voxtral TTS 的商业授权计划？ 当前为 CC BY NC 4.0，商业用户需要关注是否会推出商业许可。
DeepMind AGI 认知评估 Kaggle 竞赛结果？ 4/16 截止，6/1 公布。关注社区提交的创新评估方法和框架的实际影响。
Attention Residuals 是否会被主流架构采纳？ Kimi 团队的 AttnRes 在大规模模型上有效，关注 DeepSeek V4、Qwen 下一版、LLaMA 下一版是否采用类似设计。

上期追踪问题回应
⭐ 三大厂动态
T-1. [A] ⭐ Anthropic 工程博客：多 Agent Harness 架构——从 GAN 到”规划者-生成者-评估者”三体系统
T-1b. [A] ⭐ Anthropic 工程博客：Claude Code Auto Mode——双层安全分类器解决 Agent 权限困境
T-2. [A] ⭐ OpenAI 公开 Model Spec 全部设计哲学——首次完整披露 AI 行为准则框架
T-3. [A] OpenAI 推出安全漏洞赏金计划——首次覆盖 Agent 风险和 MCP 攻击面
T-4. [A] OpenAI 基金会首次披露运营计划——10 亿美元投资生命科学、就业、AI 安全
T-5. [A] ⭐ OpenAI 公开内部编码 Agent 对齐监控系统——5 个月监控数千万轨迹
T-6. [B] OpenAI ChatGPT 购物体验重大升级——ACP 协议驱动产品发现
T-7. [B] OpenAI Sora 安全架构全面升级——C2PA 水印、人脸保护、Characters 系统
T-8. [B] Google 开发者博客：Gemini 3 Flash 上线 CLI + Antigravity Agent 开发平台发布
T-9. [B] Anthropic 模型文档更新：Claude Opus 4.6 + Sonnet 4.6 定价和能力对比
T-10. [B] OpenAI API Changelog：GPT-5.4 全线上线 + Sora API 重大扩展
🇨🇳 中国区
1. ⭐ 中科院发布「香山」高性能 RISC-V 处理器，性能达国际先进水平
2. ⭐ 阿里达摩院发布玄铁 C950 — 全球最强 RISC-V CPU 核心
3. ⭐ OpenClaw 效应：中国 AI Token 消耗暴涨 1400 倍，算力供给承压
4. SMIC 发布 2026 行动计划：深耕专精领域，抢抓国产替代机遇
5. ⭐ 字节跳动 Dreamina Seedance 2.0 登陆 CapCut，正面挑战 Sora 退场后的视频生成市场
6. ⭐ Manus 创始人被中国国家发改委约谈，AI 人才”卖青苗”引发中美博弈新焦点
7. Semicon China 2026：中国晶圆产能份额将在 2028 年达到全球 42%
8. 中国副总理丁薛祥：建设北京”京津冀”等城市群为全球科技创新中心
9. Google TurboQuant 冲击中国存储芯片股，但分析师称”逢低买入”
10. WeRide 计划今年在香港和新加坡推出 Robotaxi 服务
11. ⭐ Anthropic 安全漏洞泄露未发布模型 “Mythos” — 代表能力”阶梯式跃升”
12. OpenAI Sora 应用关停 — 上线仅 6 个月，AI 视频社交梦碎
13. SoftBank 400 亿美元贷款指向 2026 年 OpenAI IPO
14. SK hynix 拟赴美上市，可能终结”RAMmageddon”存储器荒
15. ⭐ 豆包新版深度思考功能正式测试——“边想边搜”
16. ⭐ 腾讯撤销近十年 AI Lab 并入大模型体系，混元 3.0 即将发布
17. 百度文心 5.0（ERNIE 5.0）正式发布——多模态全面升级
18. 钉钉 CLI 以 Apache-2.0 协议正式开源
19. 智谱 AI 发布 GLM-4.7 系列——面向 Agentic Coding 深度优化
20. 钛媒体发布 2026 年 3 月中国通用大模型十强榜
📊 全球要闻（与中国 AI 相关）
G-1. OpenAI Codex 新增插件系统，追赶 Claude Code
G-2. Cursor 发布实时 RL 训练方法：每 5 小时更新一次模型
G-3. Apple 与 Google 达成协议：可使用 Gemini 蒸馏训练小模型
🇪🇺 欧洲区
15. ⭐ Mistral AI 发布 Voxtral TTS — 首个开源权重的前沿文本转语音模型
16. ⭐ DeepMind 发布 AGI 认知评估框架 + $200K Kaggle 竞赛
17. ⭐ DeepMind 发布 AI 有害操纵评估框架 — 万人规模实验揭示 AI 操纵风险
18. [B] Hugging Face 生态报告：中国超越美国成为开源 AI 最大下载来源
19. [B] EU 电池法规阻碍 Meta AI 眼镜在欧洲扩张
20. [B] Jensen Huang 宣称”我们已实现 AGI” — 引发行业热议
🌐 学术/硬件
21. ⭐ [A] NVIDIA AVO — AI Agent 自动进化出超越 cuDNN 和 FlashAttention-4 的注意力内核
22. ⭐ [A] Kimi 团队发布 Attention Residuals — 挑战 Transformer 基础架构设计
23. [B] S2D2 — Diffusion LLM 的免训练自推测解码，加速最高 4.7×
24. [B] FinMCP-Bench — 金融领域 MCP 工具使用评估基准
25. ⭐ [A] GGML/llama.cpp 加入 Hugging Face — 本地 AI 推理生态里程碑
26. [B] Sebastian Raschka 最新文章：LLM 注意力变体可视化指南
27. [B] Intel Arc Pro B70 “Big Battlemage” 发布 — 32GB VRAM，面向 AI 推理
28. [B] Natural-Language Agent Harnesses (NLAHs) — 用自然语言定义 Agent 控制逻辑
29. [B] OpenClaw-RL — 通过对话训练任意 Agent
30. [B] MiroThinker v1.0 — 开源研究 Agent 刷新多项基准
🇺🇸 北美区
N-1. [A] ⭐ OpenAI Codex 新增插件系统——追赶 Claude Code 的生态战
N-2. [A] OpenAI-Helion 核聚变电力交易——Sam Altman 退出 Helion 董事会
N-3. [B] Google AI 搜索被指泄露 Epstein 受害者个人信息——AI 隐私诉讼新前沿
N-4. [B] 音乐行业秘密拥抱 AI——“不问不说”的潜规则
N-5. [B] ⭐ SakanaAI AI-Scientist-v2 GitHub Trending——首篇完全 AI 生成的论文通过同行评审
N-6. [B] Microsoft VibeVoice 开源语音 AI 家族 GitHub Trending——ASR 支持 60 分钟单次处理
N-7. [B] oh-my-claudecode GitHub Trending 爆发——团队级多 Agent Claude Code 编排框架
N-8. [B] last30days-skill GitHub Trending 第一——跨平台深度研究 Agent Skill
N-9. [B] Anthropic 获联邦法院初步禁令——法官裁定政府惩罚 Anthropic 违宪
📊 KOL 观点精选
Jensen Huang (NVIDIA CEO)
Sam Altman (OpenAI CEO)
Dario Amodei (Anthropic CEO)
下期追踪问题

2026-03-28 AI 日报

2026-03-28 AI 日报

上期追踪问题回应

⭐ 三大厂动态

T-1. [A] ⭐ Anthropic 工程博客：多 Agent Harness 架构——从 GAN 到”规划者-生成者-评估者”三体系统

T-1b. [A] ⭐ Anthropic 工程博客：Claude Code Auto Mode——双层安全分类器解决 Agent 权限困境

T-2. [A] ⭐ OpenAI 公开 Model Spec 全部设计哲学——首次完整披露 AI 行为准则框架

T-3. [A] OpenAI 推出安全漏洞赏金计划——首次覆盖 Agent 风险和 MCP 攻击面

T-4. [A] OpenAI 基金会首次披露运营计划——10 亿美元投资生命科学、就业、AI 安全

T-5. [A] ⭐ OpenAI 公开内部编码 Agent 对齐监控系统——5 个月监控数千万轨迹

T-6. [B] OpenAI ChatGPT 购物体验重大升级——ACP 协议驱动产品发现

T-7. [B] OpenAI Sora 安全架构全面升级——C2PA 水印、人脸保护、Characters 系统

T-8. [B] Google 开发者博客：Gemini 3 Flash 上线 CLI + Antigravity Agent 开发平台发布

T-9. [B] Anthropic 模型文档更新：Claude Opus 4.6 + Sonnet 4.6 定价和能力对比

T-10. [B] OpenAI API Changelog：GPT-5.4 全线上线 + Sora API 重大扩展

🇨🇳 中国区

1. ⭐ 中科院发布「香山」高性能 RISC-V 处理器，性能达国际先进水平

2. ⭐ 阿里达摩院发布玄铁 C950 — 全球最强 RISC-V CPU 核心

3. ⭐ OpenClaw 效应：中国 AI Token 消耗暴涨 1400 倍，算力供给承压

4. SMIC 发布 2026 行动计划：深耕专精领域，抢抓国产替代机遇

5. ⭐ 字节跳动 Dreamina Seedance 2.0 登陆 CapCut，正面挑战 Sora 退场后的视频生成市场

6. ⭐ Manus 创始人被中国国家发改委约谈，AI 人才”卖青苗”引发中美博弈新焦点

7. Semicon China 2026：中国晶圆产能份额将在 2028 年达到全球 42%

8. 中国副总理丁薛祥：建设北京”京津冀”等城市群为全球科技创新中心

9. Google TurboQuant 冲击中国存储芯片股，但分析师称”逢低买入”

10. WeRide 计划今年在香港和新加坡推出 Robotaxi 服务

11. ⭐ Anthropic 安全漏洞泄露未发布模型 “Mythos” — 代表能力”阶梯式跃升”

12. OpenAI Sora 应用关停 — 上线仅 6 个月，AI 视频社交梦碎

13. SoftBank 400 亿美元贷款指向 2026 年 OpenAI IPO

14. SK hynix 拟赴美上市，可能终结”RAMmageddon”存储器荒

15. ⭐ 豆包新版深度思考功能正式测试——“边想边搜”

16. ⭐ 腾讯撤销近十年 AI Lab 并入大模型体系，混元 3.0 即将发布

17. 百度文心 5.0（ERNIE 5.0）正式发布——多模态全面升级

18. 钉钉 CLI 以 Apache-2.0 协议正式开源

19. 智谱 AI 发布 GLM-4.7 系列——面向 Agentic Coding 深度优化

20. 钛媒体发布 2026 年 3 月中国通用大模型十强榜

📊 全球要闻（与中国 AI 相关）

G-1. OpenAI Codex 新增插件系统，追赶 Claude Code

G-2. Cursor 发布实时 RL 训练方法：每 5 小时更新一次模型

G-3. Apple 与 Google 达成协议：可使用 Gemini 蒸馏训练小模型

🇪🇺 欧洲区

15. ⭐ Mistral AI 发布 Voxtral TTS — 首个开源权重的前沿文本转语音模型

16. ⭐ DeepMind 发布 AGI 认知评估框架 + $200K Kaggle 竞赛

17. ⭐ DeepMind 发布 AI 有害操纵评估框架 — 万人规模实验揭示 AI 操纵风险

18. [B] Hugging Face 生态报告：中国超越美国成为开源 AI 最大下载来源

19. [B] EU 电池法规阻碍 Meta AI 眼镜在欧洲扩张

20. [B] Jensen Huang 宣称”我们已实现 AGI” — 引发行业热议

🌐 学术/硬件

21. ⭐ [A] NVIDIA AVO — AI Agent 自动进化出超越 cuDNN 和 FlashAttention-4 的注意力内核

22. ⭐ [A] Kimi 团队发布 Attention Residuals — 挑战 Transformer 基础架构设计

23. [B] S2D2 — Diffusion LLM 的免训练自推测解码，加速最高 4.7×

24. [B] FinMCP-Bench — 金融领域 MCP 工具使用评估基准

25. ⭐ [A] GGML/llama.cpp 加入 Hugging Face — 本地 AI 推理生态里程碑

26. [B] Sebastian Raschka 最新文章：LLM 注意力变体可视化指南

27. [B] Intel Arc Pro B70 “Big Battlemage” 发布 — 32GB VRAM，面向 AI 推理

28. [B] Natural-Language Agent Harnesses (NLAHs) — 用自然语言定义 Agent 控制逻辑

29. [B] OpenClaw-RL — 通过对话训练任意 Agent

30. [B] MiroThinker v1.0 — 开源研究 Agent 刷新多项基准

🇺🇸 北美区

N-1. [A] ⭐ OpenAI Codex 新增插件系统——追赶 Claude Code 的生态战

N-2. [A] OpenAI-Helion 核聚变电力交易——Sam Altman 退出 Helion 董事会

N-3. [B] Google AI 搜索被指泄露 Epstein 受害者个人信息——AI 隐私诉讼新前沿

N-4. [B] 音乐行业秘密拥抱 AI——“不问不说”的潜规则

N-5. [B] ⭐ SakanaAI AI-Scientist-v2 GitHub Trending——首篇完全 AI 生成的论文通过同行评审

N-6. [B] Microsoft VibeVoice 开源语音 AI 家族 GitHub Trending——ASR 支持 60 分钟单次处理

N-7. [B] oh-my-claudecode GitHub Trending 爆发——团队级多 Agent Claude Code 编排框架

N-8. [B] last30days-skill GitHub Trending 第一——跨平台深度研究 Agent Skill

N-9. [B] Anthropic 获联邦法院初步禁令——法官裁定政府惩罚 Anthropic 违宪

📊 KOL 观点精选

Jensen Huang (NVIDIA CEO)

Sam Altman (OpenAI CEO)

Dario Amodei (Anthropic CEO)

下期追踪问题