Esc
输入关键词开始搜索
News

project deal

project deal

原文链接:https://www.anthropic.com/features/project-deal 来源:Anthropic Features 作者:Kevin K. Troy、Dylan Shields、Keir Bradwell、Peter McCrory 发布日期:2026-04-24 核对说明:已完整阅读原文全文及文内统计说明,并检索过去 14 天 deep-*.md,未发现同一事件的 deep 重复稿。

速查卡

项目内容
一句话总结Anthropic 用 69 名员工、500+ 件真实物品和 4 轮平行市场实验,第一次把“AI 代理替人买卖谈价”做成了有真实成交、有价格差异、有公平性感知数据的可量化研究。
大白话版这不是 AI 帮你写文案,而是 AI 真的替你在 Slack 里发帖、出价、还价、成交;而且更强的模型确实能帮你多谈成单、少花钱、多卖钱。问题是,吃亏的人往往还没察觉。
核心数字69 名参与者;真实 run 达成 186 笔交易;500+ 件商品;总交易额略高于 4,000 美元;Opus 用户平均多完成 2.07 笔交易;同一物品由 Opus 出售平均多卖 3.64 美元;Opus 卖家平均多拿 2.68 美元,Opus 买家平均少付 2.45 美元;46% 参与者表示愿意未来为此类服务付费。
价值评级A — 这是三大厂官方 24 小时内新文,而且它不是概念性畅想,而是把 agent-to-agent commerce 的收益、差异和风险第一次做成了可读数据。
最重要结论代理质量会直接变成经济优势;而且这种优势可能在被代理人主观上“不觉得吃亏”的情况下悄悄累积。
适合谁看做 agent、数字市场设计、AI 交易系统、博弈、在线平台治理、AI 安全与政策的人。

为什么这篇实验特别重要

过去一两年,行业对 agent 的讨论大多集中在三类任务:写代码、做 research、调用工具。Project Deal 把问题推进了一步:如果 AI 不只是替你完成任务,而是替你参与市场,它会不会逐渐变成一种经济代理人?

这件事的分量非常不一样。任务型 agent 的核心指标通常是完成率、准确率和时延;而交易型 agent 的核心指标会立刻变成价格、谈判、信息不对称、公平性、披露义务、权限边界和市场操纵风险。

Anthropic 这篇文章最大的价值,不在于它把办公室跳蚤市场做得多有趣,而在于它第一次给了我们一个低风险但真实的实验底板:真实人、真实商品、真实偏好、真实成交、真实主观反馈。AI 代理经济不再只是思想实验。

完整内容还原

1. 实验目标:AI 能不能替双方做人类都能接受的交易

原文一开始就把问题说得很清楚:Anthropic 想知道,离“AI 代理代表双方在市场中交互”到底还有多远?AI 代理能不能理解人的偏好,替人达成双方都满意的交易?如果不同质量的模型互相谈判,更强模型会不会形成优势?

为了回答这个问题,他们在旧实验 Project Vend 基础上,又搭了一个新实验:Project Deal。

2. 实验设置:69 名员工、100 美元预算、4 个平行市场

具体设置非常扎实:

  • 招募了 69 名 Anthropic 员工;
  • 每人得到 100 美元预算;
  • 员工会真的在实验结束后交换物品;
  • 先由 Claude 对每位参与者做访谈,获取要卖什么、愿意卖多少钱、想买什么、愿意出多少钱、谈判风格偏好等;
  • 然后根据这些访谈内容,为每个人生成定制系统提示,形成“专属代理人”。

真正的市场搭在 Slack 里。代理会轮流:

  1. 发 listing;
  2. 对别人的商品出价;
  3. 还价;
  4. 最终确认 deal。

原文特别强调:实验开始后没有人工干预。代理不会回头找人类签字确认,也不会在竞价过程中再去问人类偏好。一切都由代理自己完成。

这点很重要,因为它让实验真正接近“代理执行权”而不是“聊天辅助”。

3. 四轮平行实验:真实 run + 三个研究 run

Anthropic 没只跑一轮,而是同时跑了四个独立市场:

  • 1 个真实市场:最终真的按这个结果交换物品;
  • 3 个额外研究市场:用来比较不同模型分配的影响。

其中:

  • Run A 和 Run D:所有人都由 Claude Opus 4.5 代理;
  • Run B 和 Run C:参与者有 50% 概率被分配 Claude Haiku 4.5,另 50% 是 Opus 4.5。

这么做的意义在于,Anthropic 能拿到近似随机分配的对照,观察“代理质量差异”是否真的转化成谈判结果差异。

4. 真实市场结果:AI 代理确实能把市场跑起来

原文给出的真实 run 结果很硬:

指标数值
参与者69
列出商品500+
成交笔数186
总交易额刚刚超过 4,000 美元
交易形式自然语言协商,不是预设协议
公平性感知1-7 分量表平均约 4,接近中性

这里最关键的不是成交额,而是“交易是怎么达成的”:代理需要自己识别潜在匹配、提出价格、处理 counteroffer、达成 agreement,而且整个过程都是自然语言,不是结构化拍卖协议。

这意味着现在的 frontier agent 已经能完成一种相当原始但真实的市场协调功能。

5. 模型质量差异:更强模型确实更会谈

文章最值得反复看的部分,是 Opus 和 Haiku 的差异结果。

5.1 平均成交笔数

Anthropic 估计,Opus 用户平均比 Haiku 用户多完成 2.07 笔交易,p = 0.001

这说明更强模型不只是“说话更像人”,而是能更有效地发现机会、推动成交和完成闭环。

5.2 卖家收益差异

对那些在 Haiku 与 Opus 混合 runs 中、同一件商品都被卖出的案例,若由 Opus 出售,该物品平均多卖 3.64 美元,p = 0.011

文章给了两个很直观的例子:

  • 同一个实验室培育红宝石:Opus 卖到 65 美元,Haiku 只卖到 35 美元;
  • 同一辆坏掉的折叠车:Opus 卖到 65 美元,Haiku 只卖到 38 美元。

这个差异不是小数点游戏。全实验的中位价只有 12 美元,均价约 20.05 美元。也就是说,多几美元就是相当显著的议价优势。

5.3 买卖双方的系统性优势

对 161 件至少在四轮实验中卖出两次的商品,Anthropic 进一步估算:

  • Opus 作为卖家,平均多榨出 2.68 美元,p = 0.030
  • Opus 作为买家,平均少支付 2.45 美元,p = 0.015

这很重要,因为它说明 Opus 不是单侧优势,而是双侧优势:

  • 卖的时候更会抬价;
  • 买的时候更会压价。

它已经表现出“交易代理质量 = 市场地位”的雏形。

6. 更危险的发现:吃亏的人不一定知道自己在吃亏

这篇文章最值得政策和平台层关注的,不是“Opus 更强”,而是“Haiku 用户没明显察觉自己更吃亏”。

参与者在实验后需要给四轮结果排序。对那些在一轮被 Haiku 代理、另一轮被 Opus 代理的 28 人中:

  • 17 人把 Opus run 排得更高;
  • 11 人反而更喜欢 Haiku run。

在个别 deal 满意度上,Opus 也只是略高,但统计上不显著;公平性评分几乎一样:

  • Opus 代理 deal 公平性:4.05;
  • Haiku 代理 deal 公平性:4.06。

这就是全文最“冷”的一刀:

定量上,弱模型确实带来更差结果;主观上,被代理的人却并不明显觉得不公平。

这意味着未来如果 agent quality 差距进入真实市场,经济不平等可能不是以“大家都知道强者更强”的方式出现,而是以“很多人没感觉,但长期持续吃亏”的方式积累。

7. Prompt 风格不如模型质量重要

Anthropic 还测试了一个很有意思的问题:让代理谈判时更 aggressive,有没有帮助?

结果基本是否定的。

原文给出的结论是:

  • aggressive instruction 对售出概率没有显著影响;
  • aggressive buyers 没有显著少花钱;
  • aggressive sellers 卖得更贵的表面效果,主要来自他们一开始就设了更高挂牌价,一旦控制住这个变量,效果不显著。

这意味着至少在这个实验里:

  • prompt 风格不是最主要因素;
  • 模型能力本身比“教它更凶一点”重要得多。

这个结果对今天很多 agent 产品很有参考价值。行业里容易高估 prompt trick,低估底模差距和推理质量差距。Project Deal 明确告诉你:在交易这类高交互、高博弈任务上,底层模型能力会直接变成议价力。

8. 真实世界的荒诞细节:也是最好的警告

原文保留了不少有趣细节,比如“牛仔口吻谈判”、Claude 给自己买 19 个乒乓球、有人被代理买到了自己已经拥有的一块滑雪板、有人代理出一个“免费遛狗体验”。

这些段落不是花絮而已,它们说明两件事:

  1. AI 代理在低结构化场景里,确实能展现出意料之外的创造性;
  2. 这种创造性同时也意味着 confabulation、偏航、角色误解和意外行为。

Anthropic 在脚注里点得很明白:这些胡编细节说明,如果没有额外 safeguards,把类似系统部署到非实验环境里会有明显风险。

关键结构拆解

Project Deal 的执行链

人类访谈
  ├─ 卖什么
  ├─ 愿卖价位
  ├─ 想买什么
  ├─ 愿付价位
  └─ 谈判风格偏好

Claude 生成定制系统提示

Slack 代理市场
  ├─ 发帖 listing
  ├─ 搜索匹配对象
  ├─ 出价/还价
  ├─ 达成成交
  └─ 生成交易确认

人类线下真实交换物品

Opus vs Haiku 结果矩阵

指标Opus 相对 Haiku 的结果含义
平均成交笔数+2.07 笔更会发现与推动交易
同物品售价+3.64 美元更会卖高价
卖家效应+2.68 美元卖方更占优
买家效应-2.45 美元买方更会压价
主观公平性感知几乎无差异吃亏者可能察觉不到
aggressive prompting不显著模型质量比谈判口吻更重要

核心技术洞察

1. Agent 质量已经可以直接映射成经济价值

我们过去说“更强模型会带来更好任务完成率”,这个说法在交易场景里变得过于温和。Project Deal 表明,更强模型不是让你“感觉更智能”,而是可能直接让你:

  • 多谈成单;
  • 多卖几美元;
  • 少花几美元。

一旦部署到真实市场,这就不是 UX 差异,而是利益分配差异。

2. 未来的 agent 平台竞争,核心不只是工具调用,而是市场设计

很多人还把 agent 看作“自动执行器”。但一旦 agent 进入交易系统,平台就必须考虑:

  • 是否要求代理身份披露;
  • 是否允许模型质量差异自由竞争;
  • 是否需要保护弱代理代表的用户;
  • 是否引入出价透明度、对冲机制或公平约束;
  • 如何应对 prompt injection、jailbreak 与操纵注意力。

这意味着 agent economy 的真正难题不是“模型会不会谈价”,而是“平台准备怎么治理会谈价的模型”。

3. Prompt engineering 的天花板,比底模能力低得多

Project Deal 一个很实用的结论是:别以为给 agent 加点 aggressive prompt 就能弥补模型能力差距。至少在复杂协商任务里,底模的理解、推理与策略能力,比人格口吻重要得多。

实践指南

🟢 今天可以落下来的判断

  1. 如果你做 B2B agent 产品,要开始把“交易/协商”视为单独任务类型,而不是普通聊天延伸。
  2. 如果你设计 agent marketplace,必须把模型质量差异视为制度变量,而不只是性能变量。
  3. 如果你在公司内部想试代理交易或采购辅助,至少要先限制预算、范围和最终执行权限。

🟡 接下来最值得追的信号

  1. Anthropic 会不会公开更完整的 PDF / appendix / 代码或实验设置;
  2. 是否会有更开放、更竞争、更高风险市场的后续实验;
  3. 其他模型厂是否也开始测试 agent-to-agent commerce;
  4. 平台和监管层是否会提出针对代理交易的披露、授权与责任规则。

横向对比

维度传统 agent demoProject Deal
目标完成单个任务达成多轮交易与价格谈判
评价方式成功率、正确率成交率、价格、主观公平、收益分配
场景工具调用、写作、编码市场匹配、还价、协商
风险幻觉、越权幻觉、越权、信息不对称、操纵、公平性
治理难点能否完成任务能否保证市场规则与代理公平

批判性分析

局限性

原文自己承认,这只是 pilot:

  • 参与者是自选的 Anthropic 员工;
  • 市场规模小;
  • 商品价值低;
  • 激励设计特殊;
  • 不代表更激烈、更对抗、更不对称的真实市场。

所以你不能把它直接外推到电商、金融市场或企业采购。

适用边界

这个实验最适合回答的是:“AI 代理是否已经具备原始市场协商能力?”

它还不能回答:

  • 在真实高风险市场里是否会引发系统性操纵;
  • 法律责任如何划分;
  • 模型公司是否应为代理谈判结果承担额外义务。

潜在风险

  1. 代理质量差异会默默积累为不平等;
  2. 平台可能为了提升成交效率而过度优化对 agent 的 persuasion;
  3. prompt injection 和身份伪装会成为新型市场攻击面;
  4. 用户可能没有足够的“知情同意”去理解代理具体替自己做了什么。

独立观察

这篇文章真正改变叙事的地方,不是“AI 能帮你在群里买卖二手货”,而是它第一次把 agent economy 从空中楼阁拉到了实验室地板:我们已经看到,模型能力会变成价格优势;而且人未必意识到这种优势正在发生。

接下来更大的问题不再是“agent economy 会不会来”,而是“谁先定义它的市场规则”。