project deal
project deal
原文链接:https://www.anthropic.com/features/project-deal 来源:Anthropic Features 作者:Kevin K. Troy、Dylan Shields、Keir Bradwell、Peter McCrory 发布日期:2026-04-24 核对说明:已完整阅读原文全文及文内统计说明,并检索过去 14 天
deep-*.md,未发现同一事件的 deep 重复稿。
速查卡
| 项目 | 内容 |
|---|---|
| 一句话总结 | Anthropic 用 69 名员工、500+ 件真实物品和 4 轮平行市场实验,第一次把“AI 代理替人买卖谈价”做成了有真实成交、有价格差异、有公平性感知数据的可量化研究。 |
| 大白话版 | 这不是 AI 帮你写文案,而是 AI 真的替你在 Slack 里发帖、出价、还价、成交;而且更强的模型确实能帮你多谈成单、少花钱、多卖钱。问题是,吃亏的人往往还没察觉。 |
| 核心数字 | 69 名参与者;真实 run 达成 186 笔交易;500+ 件商品;总交易额略高于 4,000 美元;Opus 用户平均多完成 2.07 笔交易;同一物品由 Opus 出售平均多卖 3.64 美元;Opus 卖家平均多拿 2.68 美元,Opus 买家平均少付 2.45 美元;46% 参与者表示愿意未来为此类服务付费。 |
| 价值评级 | A — 这是三大厂官方 24 小时内新文,而且它不是概念性畅想,而是把 agent-to-agent commerce 的收益、差异和风险第一次做成了可读数据。 |
| 最重要结论 | 代理质量会直接变成经济优势;而且这种优势可能在被代理人主观上“不觉得吃亏”的情况下悄悄累积。 |
| 适合谁看 | 做 agent、数字市场设计、AI 交易系统、博弈、在线平台治理、AI 安全与政策的人。 |
为什么这篇实验特别重要
过去一两年,行业对 agent 的讨论大多集中在三类任务:写代码、做 research、调用工具。Project Deal 把问题推进了一步:如果 AI 不只是替你完成任务,而是替你参与市场,它会不会逐渐变成一种经济代理人?
这件事的分量非常不一样。任务型 agent 的核心指标通常是完成率、准确率和时延;而交易型 agent 的核心指标会立刻变成价格、谈判、信息不对称、公平性、披露义务、权限边界和市场操纵风险。
Anthropic 这篇文章最大的价值,不在于它把办公室跳蚤市场做得多有趣,而在于它第一次给了我们一个低风险但真实的实验底板:真实人、真实商品、真实偏好、真实成交、真实主观反馈。AI 代理经济不再只是思想实验。
完整内容还原
1. 实验目标:AI 能不能替双方做人类都能接受的交易
原文一开始就把问题说得很清楚:Anthropic 想知道,离“AI 代理代表双方在市场中交互”到底还有多远?AI 代理能不能理解人的偏好,替人达成双方都满意的交易?如果不同质量的模型互相谈判,更强模型会不会形成优势?
为了回答这个问题,他们在旧实验 Project Vend 基础上,又搭了一个新实验:Project Deal。
2. 实验设置:69 名员工、100 美元预算、4 个平行市场
具体设置非常扎实:
- 招募了 69 名 Anthropic 员工;
- 每人得到 100 美元预算;
- 员工会真的在实验结束后交换物品;
- 先由 Claude 对每位参与者做访谈,获取要卖什么、愿意卖多少钱、想买什么、愿意出多少钱、谈判风格偏好等;
- 然后根据这些访谈内容,为每个人生成定制系统提示,形成“专属代理人”。
真正的市场搭在 Slack 里。代理会轮流:
- 发 listing;
- 对别人的商品出价;
- 还价;
- 最终确认 deal。
原文特别强调:实验开始后没有人工干预。代理不会回头找人类签字确认,也不会在竞价过程中再去问人类偏好。一切都由代理自己完成。
这点很重要,因为它让实验真正接近“代理执行权”而不是“聊天辅助”。
3. 四轮平行实验:真实 run + 三个研究 run
Anthropic 没只跑一轮,而是同时跑了四个独立市场:
- 1 个真实市场:最终真的按这个结果交换物品;
- 3 个额外研究市场:用来比较不同模型分配的影响。
其中:
- Run A 和 Run D:所有人都由 Claude Opus 4.5 代理;
- Run B 和 Run C:参与者有 50% 概率被分配 Claude Haiku 4.5,另 50% 是 Opus 4.5。
这么做的意义在于,Anthropic 能拿到近似随机分配的对照,观察“代理质量差异”是否真的转化成谈判结果差异。
4. 真实市场结果:AI 代理确实能把市场跑起来
原文给出的真实 run 结果很硬:
| 指标 | 数值 |
|---|---|
| 参与者 | 69 |
| 列出商品 | 500+ |
| 成交笔数 | 186 |
| 总交易额 | 刚刚超过 4,000 美元 |
| 交易形式 | 自然语言协商,不是预设协议 |
| 公平性感知 | 1-7 分量表平均约 4,接近中性 |
这里最关键的不是成交额,而是“交易是怎么达成的”:代理需要自己识别潜在匹配、提出价格、处理 counteroffer、达成 agreement,而且整个过程都是自然语言,不是结构化拍卖协议。
这意味着现在的 frontier agent 已经能完成一种相当原始但真实的市场协调功能。
5. 模型质量差异:更强模型确实更会谈
文章最值得反复看的部分,是 Opus 和 Haiku 的差异结果。
5.1 平均成交笔数
Anthropic 估计,Opus 用户平均比 Haiku 用户多完成 2.07 笔交易,p = 0.001。
这说明更强模型不只是“说话更像人”,而是能更有效地发现机会、推动成交和完成闭环。
5.2 卖家收益差异
对那些在 Haiku 与 Opus 混合 runs 中、同一件商品都被卖出的案例,若由 Opus 出售,该物品平均多卖 3.64 美元,p = 0.011。
文章给了两个很直观的例子:
- 同一个实验室培育红宝石:Opus 卖到 65 美元,Haiku 只卖到 35 美元;
- 同一辆坏掉的折叠车:Opus 卖到 65 美元,Haiku 只卖到 38 美元。
这个差异不是小数点游戏。全实验的中位价只有 12 美元,均价约 20.05 美元。也就是说,多几美元就是相当显著的议价优势。
5.3 买卖双方的系统性优势
对 161 件至少在四轮实验中卖出两次的商品,Anthropic 进一步估算:
- Opus 作为卖家,平均多榨出 2.68 美元,
p = 0.030; - Opus 作为买家,平均少支付 2.45 美元,
p = 0.015。
这很重要,因为它说明 Opus 不是单侧优势,而是双侧优势:
- 卖的时候更会抬价;
- 买的时候更会压价。
它已经表现出“交易代理质量 = 市场地位”的雏形。
6. 更危险的发现:吃亏的人不一定知道自己在吃亏
这篇文章最值得政策和平台层关注的,不是“Opus 更强”,而是“Haiku 用户没明显察觉自己更吃亏”。
参与者在实验后需要给四轮结果排序。对那些在一轮被 Haiku 代理、另一轮被 Opus 代理的 28 人中:
- 17 人把 Opus run 排得更高;
- 11 人反而更喜欢 Haiku run。
在个别 deal 满意度上,Opus 也只是略高,但统计上不显著;公平性评分几乎一样:
- Opus 代理 deal 公平性:4.05;
- Haiku 代理 deal 公平性:4.06。
这就是全文最“冷”的一刀:
定量上,弱模型确实带来更差结果;主观上,被代理的人却并不明显觉得不公平。
这意味着未来如果 agent quality 差距进入真实市场,经济不平等可能不是以“大家都知道强者更强”的方式出现,而是以“很多人没感觉,但长期持续吃亏”的方式积累。
7. Prompt 风格不如模型质量重要
Anthropic 还测试了一个很有意思的问题:让代理谈判时更 aggressive,有没有帮助?
结果基本是否定的。
原文给出的结论是:
- aggressive instruction 对售出概率没有显著影响;
- aggressive buyers 没有显著少花钱;
- aggressive sellers 卖得更贵的表面效果,主要来自他们一开始就设了更高挂牌价,一旦控制住这个变量,效果不显著。
这意味着至少在这个实验里:
- prompt 风格不是最主要因素;
- 模型能力本身比“教它更凶一点”重要得多。
这个结果对今天很多 agent 产品很有参考价值。行业里容易高估 prompt trick,低估底模差距和推理质量差距。Project Deal 明确告诉你:在交易这类高交互、高博弈任务上,底层模型能力会直接变成议价力。
8. 真实世界的荒诞细节:也是最好的警告
原文保留了不少有趣细节,比如“牛仔口吻谈判”、Claude 给自己买 19 个乒乓球、有人被代理买到了自己已经拥有的一块滑雪板、有人代理出一个“免费遛狗体验”。
这些段落不是花絮而已,它们说明两件事:
- AI 代理在低结构化场景里,确实能展现出意料之外的创造性;
- 这种创造性同时也意味着 confabulation、偏航、角色误解和意外行为。
Anthropic 在脚注里点得很明白:这些胡编细节说明,如果没有额外 safeguards,把类似系统部署到非实验环境里会有明显风险。
关键结构拆解
Project Deal 的执行链
人类访谈
├─ 卖什么
├─ 愿卖价位
├─ 想买什么
├─ 愿付价位
└─ 谈判风格偏好
↓
Claude 生成定制系统提示
↓
Slack 代理市场
├─ 发帖 listing
├─ 搜索匹配对象
├─ 出价/还价
├─ 达成成交
└─ 生成交易确认
↓
人类线下真实交换物品
Opus vs Haiku 结果矩阵
| 指标 | Opus 相对 Haiku 的结果 | 含义 |
|---|---|---|
| 平均成交笔数 | +2.07 笔 | 更会发现与推动交易 |
| 同物品售价 | +3.64 美元 | 更会卖高价 |
| 卖家效应 | +2.68 美元 | 卖方更占优 |
| 买家效应 | -2.45 美元 | 买方更会压价 |
| 主观公平性感知 | 几乎无差异 | 吃亏者可能察觉不到 |
| aggressive prompting | 不显著 | 模型质量比谈判口吻更重要 |
核心技术洞察
1. Agent 质量已经可以直接映射成经济价值
我们过去说“更强模型会带来更好任务完成率”,这个说法在交易场景里变得过于温和。Project Deal 表明,更强模型不是让你“感觉更智能”,而是可能直接让你:
- 多谈成单;
- 多卖几美元;
- 少花几美元。
一旦部署到真实市场,这就不是 UX 差异,而是利益分配差异。
2. 未来的 agent 平台竞争,核心不只是工具调用,而是市场设计
很多人还把 agent 看作“自动执行器”。但一旦 agent 进入交易系统,平台就必须考虑:
- 是否要求代理身份披露;
- 是否允许模型质量差异自由竞争;
- 是否需要保护弱代理代表的用户;
- 是否引入出价透明度、对冲机制或公平约束;
- 如何应对 prompt injection、jailbreak 与操纵注意力。
这意味着 agent economy 的真正难题不是“模型会不会谈价”,而是“平台准备怎么治理会谈价的模型”。
3. Prompt engineering 的天花板,比底模能力低得多
Project Deal 一个很实用的结论是:别以为给 agent 加点 aggressive prompt 就能弥补模型能力差距。至少在复杂协商任务里,底模的理解、推理与策略能力,比人格口吻重要得多。
实践指南
🟢 今天可以落下来的判断
- 如果你做 B2B agent 产品,要开始把“交易/协商”视为单独任务类型,而不是普通聊天延伸。
- 如果你设计 agent marketplace,必须把模型质量差异视为制度变量,而不只是性能变量。
- 如果你在公司内部想试代理交易或采购辅助,至少要先限制预算、范围和最终执行权限。
🟡 接下来最值得追的信号
- Anthropic 会不会公开更完整的 PDF / appendix / 代码或实验设置;
- 是否会有更开放、更竞争、更高风险市场的后续实验;
- 其他模型厂是否也开始测试 agent-to-agent commerce;
- 平台和监管层是否会提出针对代理交易的披露、授权与责任规则。
横向对比
| 维度 | 传统 agent demo | Project Deal |
|---|---|---|
| 目标 | 完成单个任务 | 达成多轮交易与价格谈判 |
| 评价方式 | 成功率、正确率 | 成交率、价格、主观公平、收益分配 |
| 场景 | 工具调用、写作、编码 | 市场匹配、还价、协商 |
| 风险 | 幻觉、越权 | 幻觉、越权、信息不对称、操纵、公平性 |
| 治理难点 | 能否完成任务 | 能否保证市场规则与代理公平 |
批判性分析
局限性
原文自己承认,这只是 pilot:
- 参与者是自选的 Anthropic 员工;
- 市场规模小;
- 商品价值低;
- 激励设计特殊;
- 不代表更激烈、更对抗、更不对称的真实市场。
所以你不能把它直接外推到电商、金融市场或企业采购。
适用边界
这个实验最适合回答的是:“AI 代理是否已经具备原始市场协商能力?”
它还不能回答:
- 在真实高风险市场里是否会引发系统性操纵;
- 法律责任如何划分;
- 模型公司是否应为代理谈判结果承担额外义务。
潜在风险
- 代理质量差异会默默积累为不平等;
- 平台可能为了提升成交效率而过度优化对 agent 的 persuasion;
- prompt injection 和身份伪装会成为新型市场攻击面;
- 用户可能没有足够的“知情同意”去理解代理具体替自己做了什么。
独立观察
这篇文章真正改变叙事的地方,不是“AI 能帮你在群里买卖二手货”,而是它第一次把 agent economy 从空中楼阁拉到了实验室地板:我们已经看到,模型能力会变成价格优势;而且人未必意识到这种优势正在发生。
接下来更大的问题不再是“agent economy 会不会来”,而是“谁先定义它的市场规则”。