News

project deal

原文链接：https://www.anthropic.com/features/project-deal 来源：Anthropic Features 作者：Kevin K. Troy、Dylan Shields、Keir Bradwell、Peter McCrory 发布日期：2026-04-24 核对说明：已完整阅读原文全文及文内统计说明，并检索过去 14 天 deep-*.md，未发现同一事件的 deep 重复稿。

速查卡

项目	内容
一句话总结	Anthropic 用 69 名员工、500+ 件真实物品和 4 轮平行市场实验，第一次把“AI 代理替人买卖谈价”做成了有真实成交、有价格差异、有公平性感知数据的可量化研究。
大白话版	这不是 AI 帮你写文案，而是 AI 真的替你在 Slack 里发帖、出价、还价、成交；而且更强的模型确实能帮你多谈成单、少花钱、多卖钱。问题是，吃亏的人往往还没察觉。
核心数字	69 名参与者；真实 run 达成 186 笔交易；500+ 件商品；总交易额略高于 4,000 美元；Opus 用户平均多完成 2.07 笔交易；同一物品由 Opus 出售平均多卖 3.64 美元；Opus 卖家平均多拿 2.68 美元，Opus 买家平均少付 2.45 美元；46% 参与者表示愿意未来为此类服务付费。
价值评级	A — 这是三大厂官方 24 小时内新文，而且它不是概念性畅想，而是把 agent-to-agent commerce 的收益、差异和风险第一次做成了可读数据。
最重要结论	代理质量会直接变成经济优势；而且这种优势可能在被代理人主观上“不觉得吃亏”的情况下悄悄累积。
适合谁看	做 agent、数字市场设计、AI 交易系统、博弈、在线平台治理、AI 安全与政策的人。

为什么这篇实验特别重要

过去一两年，行业对 agent 的讨论大多集中在三类任务：写代码、做 research、调用工具。Project Deal 把问题推进了一步：如果 AI 不只是替你完成任务，而是替你参与市场，它会不会逐渐变成一种经济代理人？

这件事的分量非常不一样。任务型 agent 的核心指标通常是完成率、准确率和时延；而交易型 agent 的核心指标会立刻变成价格、谈判、信息不对称、公平性、披露义务、权限边界和市场操纵风险。

Anthropic 这篇文章最大的价值，不在于它把办公室跳蚤市场做得多有趣，而在于它第一次给了我们一个低风险但真实的实验底板：真实人、真实商品、真实偏好、真实成交、真实主观反馈。AI 代理经济不再只是思想实验。

完整内容还原

1. 实验目标：AI 能不能替双方做人类都能接受的交易

原文一开始就把问题说得很清楚：Anthropic 想知道，离“AI 代理代表双方在市场中交互”到底还有多远？AI 代理能不能理解人的偏好，替人达成双方都满意的交易？如果不同质量的模型互相谈判，更强模型会不会形成优势？

为了回答这个问题，他们在旧实验 Project Vend 基础上，又搭了一个新实验：Project Deal。

2. 实验设置：69 名员工、100 美元预算、4 个平行市场

具体设置非常扎实：

招募了 69 名 Anthropic 员工；
每人得到 100 美元预算；
员工会真的在实验结束后交换物品；
先由 Claude 对每位参与者做访谈，获取要卖什么、愿意卖多少钱、想买什么、愿意出多少钱、谈判风格偏好等；
然后根据这些访谈内容，为每个人生成定制系统提示，形成“专属代理人”。

真正的市场搭在 Slack 里。代理会轮流：

发 listing；
对别人的商品出价；
还价；
最终确认 deal。

原文特别强调：实验开始后没有人工干预。代理不会回头找人类签字确认，也不会在竞价过程中再去问人类偏好。一切都由代理自己完成。

这点很重要，因为它让实验真正接近“代理执行权”而不是“聊天辅助”。

3. 四轮平行实验：真实 run + 三个研究 run

Anthropic 没只跑一轮，而是同时跑了四个独立市场：

1 个真实市场：最终真的按这个结果交换物品；
3 个额外研究市场：用来比较不同模型分配的影响。

其中：

Run A 和 Run D：所有人都由 Claude Opus 4.5 代理；
Run B 和 Run C：参与者有 50% 概率被分配 Claude Haiku 4.5，另 50% 是 Opus 4.5。

这么做的意义在于，Anthropic 能拿到近似随机分配的对照，观察“代理质量差异”是否真的转化成谈判结果差异。

4. 真实市场结果：AI 代理确实能把市场跑起来

原文给出的真实 run 结果很硬：

指标	数值
参与者	69
列出商品	500+
成交笔数	186
总交易额	刚刚超过 4,000 美元
交易形式	自然语言协商，不是预设协议
公平性感知	1-7 分量表平均约 4，接近中性

这里最关键的不是成交额，而是“交易是怎么达成的”：代理需要自己识别潜在匹配、提出价格、处理 counteroffer、达成 agreement，而且整个过程都是自然语言，不是结构化拍卖协议。

这意味着现在的 frontier agent 已经能完成一种相当原始但真实的市场协调功能。

5. 模型质量差异：更强模型确实更会谈

文章最值得反复看的部分，是 Opus 和 Haiku 的差异结果。

5.1 平均成交笔数

Anthropic 估计，Opus 用户平均比 Haiku 用户多完成 2.07 笔交易，p = 0.001。

这说明更强模型不只是“说话更像人”，而是能更有效地发现机会、推动成交和完成闭环。

5.2 卖家收益差异

对那些在 Haiku 与 Opus 混合 runs 中、同一件商品都被卖出的案例，若由 Opus 出售，该物品平均多卖 3.64 美元，p = 0.011。

文章给了两个很直观的例子：

同一个实验室培育红宝石：Opus 卖到 65 美元，Haiku 只卖到 35 美元；
同一辆坏掉的折叠车：Opus 卖到 65 美元，Haiku 只卖到 38 美元。

这个差异不是小数点游戏。全实验的中位价只有 12 美元，均价约 20.05 美元。也就是说，多几美元就是相当显著的议价优势。

5.3 买卖双方的系统性优势

对 161 件至少在四轮实验中卖出两次的商品，Anthropic 进一步估算：

Opus 作为卖家，平均多榨出 2.68 美元，p = 0.030；
Opus 作为买家，平均少支付 2.45 美元，p = 0.015。

这很重要，因为它说明 Opus 不是单侧优势，而是双侧优势：

卖的时候更会抬价；
买的时候更会压价。

它已经表现出“交易代理质量 = 市场地位”的雏形。

6. 更危险的发现：吃亏的人不一定知道自己在吃亏

这篇文章最值得政策和平台层关注的，不是“Opus 更强”，而是“Haiku 用户没明显察觉自己更吃亏”。

参与者在实验后需要给四轮结果排序。对那些在一轮被 Haiku 代理、另一轮被 Opus 代理的 28 人中：

17 人把 Opus run 排得更高；
11 人反而更喜欢 Haiku run。

在个别 deal 满意度上，Opus 也只是略高，但统计上不显著；公平性评分几乎一样：

Opus 代理 deal 公平性：4.05；
Haiku 代理 deal 公平性：4.06。

这就是全文最“冷”的一刀：

定量上，弱模型确实带来更差结果；主观上，被代理的人却并不明显觉得不公平。

这意味着未来如果 agent quality 差距进入真实市场，经济不平等可能不是以“大家都知道强者更强”的方式出现，而是以“很多人没感觉，但长期持续吃亏”的方式积累。

7. Prompt 风格不如模型质量重要

Anthropic 还测试了一个很有意思的问题：让代理谈判时更 aggressive，有没有帮助？

结果基本是否定的。

原文给出的结论是：

aggressive instruction 对售出概率没有显著影响；
aggressive buyers 没有显著少花钱；
aggressive sellers 卖得更贵的表面效果，主要来自他们一开始就设了更高挂牌价，一旦控制住这个变量，效果不显著。

这意味着至少在这个实验里：

prompt 风格不是最主要因素；
模型能力本身比“教它更凶一点”重要得多。

这个结果对今天很多 agent 产品很有参考价值。行业里容易高估 prompt trick，低估底模差距和推理质量差距。Project Deal 明确告诉你：在交易这类高交互、高博弈任务上，底层模型能力会直接变成议价力。

8. 真实世界的荒诞细节：也是最好的警告

原文保留了不少有趣细节，比如“牛仔口吻谈判”、Claude 给自己买 19 个乒乓球、有人被代理买到了自己已经拥有的一块滑雪板、有人代理出一个“免费遛狗体验”。

这些段落不是花絮而已，它们说明两件事：

AI 代理在低结构化场景里，确实能展现出意料之外的创造性；
这种创造性同时也意味着 confabulation、偏航、角色误解和意外行为。

Anthropic 在脚注里点得很明白：这些胡编细节说明，如果没有额外 safeguards，把类似系统部署到非实验环境里会有明显风险。

关键结构拆解

Project Deal 的执行链

人类访谈
  ├─ 卖什么
  ├─ 愿卖价位
  ├─ 想买什么
  ├─ 愿付价位
  └─ 谈判风格偏好
        ↓
Claude 生成定制系统提示
        ↓
Slack 代理市场
  ├─ 发帖 listing
  ├─ 搜索匹配对象
  ├─ 出价/还价
  ├─ 达成成交
  └─ 生成交易确认
        ↓
人类线下真实交换物品

Opus vs Haiku 结果矩阵

指标	Opus 相对 Haiku 的结果	含义
平均成交笔数	+2.07 笔	更会发现与推动交易
同物品售价	+3.64 美元	更会卖高价
卖家效应	+2.68 美元	卖方更占优
买家效应	-2.45 美元	买方更会压价
主观公平性感知	几乎无差异	吃亏者可能察觉不到
aggressive prompting	不显著	模型质量比谈判口吻更重要

核心技术洞察

1. Agent 质量已经可以直接映射成经济价值

我们过去说“更强模型会带来更好任务完成率”，这个说法在交易场景里变得过于温和。Project Deal 表明，更强模型不是让你“感觉更智能”，而是可能直接让你：

多谈成单；
多卖几美元；
少花几美元。

一旦部署到真实市场，这就不是 UX 差异，而是利益分配差异。

2. 未来的 agent 平台竞争，核心不只是工具调用，而是市场设计

很多人还把 agent 看作“自动执行器”。但一旦 agent 进入交易系统，平台就必须考虑：

是否要求代理身份披露；
是否允许模型质量差异自由竞争；
是否需要保护弱代理代表的用户；
是否引入出价透明度、对冲机制或公平约束；
如何应对 prompt injection、jailbreak 与操纵注意力。

这意味着 agent economy 的真正难题不是“模型会不会谈价”，而是“平台准备怎么治理会谈价的模型”。

3. Prompt engineering 的天花板，比底模能力低得多

Project Deal 一个很实用的结论是：别以为给 agent 加点 aggressive prompt 就能弥补模型能力差距。至少在复杂协商任务里，底模的理解、推理与策略能力，比人格口吻重要得多。

实践指南

🟢 今天可以落下来的判断

如果你做 B2B agent 产品，要开始把“交易/协商”视为单独任务类型，而不是普通聊天延伸。
如果你设计 agent marketplace，必须把模型质量差异视为制度变量，而不只是性能变量。
如果你在公司内部想试代理交易或采购辅助，至少要先限制预算、范围和最终执行权限。

🟡 接下来最值得追的信号

Anthropic 会不会公开更完整的 PDF / appendix / 代码或实验设置；
是否会有更开放、更竞争、更高风险市场的后续实验；
其他模型厂是否也开始测试 agent-to-agent commerce；
平台和监管层是否会提出针对代理交易的披露、授权与责任规则。

横向对比

维度	传统 agent demo	Project Deal
目标	完成单个任务	达成多轮交易与价格谈判
评价方式	成功率、正确率	成交率、价格、主观公平、收益分配
场景	工具调用、写作、编码	市场匹配、还价、协商
风险	幻觉、越权	幻觉、越权、信息不对称、操纵、公平性
治理难点	能否完成任务	能否保证市场规则与代理公平

批判性分析

局限性

原文自己承认，这只是 pilot：

参与者是自选的 Anthropic 员工；
市场规模小；
商品价值低；
激励设计特殊；
不代表更激烈、更对抗、更不对称的真实市场。

所以你不能把它直接外推到电商、金融市场或企业采购。

适用边界

这个实验最适合回答的是：“AI 代理是否已经具备原始市场协商能力？”

它还不能回答：

在真实高风险市场里是否会引发系统性操纵；
法律责任如何划分；
模型公司是否应为代理谈判结果承担额外义务。

潜在风险

代理质量差异会默默积累为不平等；
平台可能为了提升成交效率而过度优化对 agent 的 persuasion；
prompt injection 和身份伪装会成为新型市场攻击面；
用户可能没有足够的“知情同意”去理解代理具体替自己做了什么。

独立观察

这篇文章真正改变叙事的地方，不是“AI 能帮你在群里买卖二手货”，而是它第一次把 agent economy 从空中楼阁拉到了实验室地板：我们已经看到，模型能力会变成价格优势；而且人未必意识到这种优势正在发生。

接下来更大的问题不再是“agent economy 会不会来”，而是“谁先定义它的市场规则”。

速查卡
为什么这篇实验特别重要
完整内容还原
1. 实验目标：AI 能不能替双方做人类都能接受的交易
2. 实验设置：69 名员工、100 美元预算、4 个平行市场
3. 四轮平行实验：真实 run + 三个研究 run
4. 真实市场结果：AI 代理确实能把市场跑起来
5. 模型质量差异：更强模型确实更会谈
6. 更危险的发现：吃亏的人不一定知道自己在吃亏
7. Prompt 风格不如模型质量重要
8. 真实世界的荒诞细节：也是最好的警告
关键结构拆解
Project Deal 的执行链
Opus vs Haiku 结果矩阵
核心技术洞察
1. Agent 质量已经可以直接映射成经济价值
2. 未来的 agent 平台竞争，核心不只是工具调用，而是市场设计
3. Prompt engineering 的天花板，比底模能力低得多
实践指南
🟢 今天可以落下来的判断
🟡 接下来最值得追的信号
横向对比
批判性分析
局限性
适用边界
潜在风险
独立观察