谷歌让-12-个-AI-大模型攒局玩“大富翁”：Claude3.5-爱合作-GPT-4o-最“自私”

巴西蔗糖减产推升糖价——涨势或才初现端倪官方通报来了 美国FDA或撤销辉瑞新冠疫苗对5岁以下儿童授权官方已经证实 美国国务卿鲁比奥和俄罗斯外长拉夫罗夫通话为特朗普-普京会晤做准备又一个里程碑 孚日股份双主业进阶之路秒懂 宏华数科：技术筑基全链拓新后续反转 美国7月关税收入飙升但还是没能堵上越扯越大的预算窟窿官方通报 木头姐大举买入Block股票减持Shopify 结构性机会涌现 99%权益类基金近一年收益为正最新进展 嘉泽新能董事长陈波：三重跃迁打造综合能源服务新生态反转来了 美国7月关税收入飙升但还是没能堵上越扯越大的预算窟窿最新报道 美国债市：CPI数据强化降息预期美债涨跌互见收益率曲线陡化又一个里程碑 道明证券：预计美联储将在9月提前开始降息是真的？ 嘉泽新能董事长陈波：三重跃迁打造综合能源服务新生态 通胀数据鼓舞鸽派市场对美联储大手笔降息的押注升温 引爆上一轮加密货币大崩盘的男人认罪面临十余年铁窗生涯 嘉泽新能董事长陈波：三重跃迁打造综合能源服务新生态学习了 逾50家上市公司筹划中期分红派现规模预估超820亿元实时报道 传统周期与科技成长携手走强上证指数连续四日刷新年内纪录 人工智能需求推动 CoreWeave季度营收超预期这么做真的好么？ 埃及客户亲临GENMA太仓制造基地进行RTG发运前检验，6台设备即将启运 技术+生态+人才，华为解锁天津数智产业发展密码 苹果有意将双层串联OLED技术用于iPhone 消息称已在评估实测是真的 欧股开盘普涨欧洲斯托克600指数上涨0.3%记者时时跟进 麦当劳回应招募退休员工：采用多元用工方式提供合法报酬和商保 暂停加征关税再延期，外贸企业怎么样了？最新报道 App Store上的“AI战役”开启? 马斯克怒斥苹果偏袒OpenAI，xAI预告反垄断诉讼实测是真的 前北约秘书长：英国公众没有意识到增加国防开支的必要性学习了 收评：创业板指涨1.24% 半导体、光刻机概念大涨 埃及客户亲临GENMA太仓制造基地进行RTG发运前检验，6台设备即将启运实垂了 美股财报哪里看？国内投资者必备！美股财报查询攻略最新报道 0812热点追踪：焦煤再次重返涨幅榜首 国家发改委：8月12日国内成品油价格按机制不作调整 美债收益率警报：今晚CPI或超预期华尔街押注美联储年内两次降息 暂停加征关税再延期，外贸企业怎么样了？ 韩央行：外资7月份净买入逾48亿美元韩国股票和债券后续来了 邦达亚洲:澳洲联储如期降息25个基点澳元小幅下滑实测是真的 数字货币板块异动拉升，恒宝股份触及涨停 科技巨头承诺数十亿美元建房六年后：成果不及当初“豪言”，加州审批与商业现实成掣肘官方处理结果 招银国际：重申三一国际目标价8.7港元增长趋势明确最新报道 高盛：首予大麦娱乐“买入”评级目标价1.38港元 港股复星国际直线拉涨最新进展 收评：创指收涨超1% AI算力硬件股集体走强后续会怎么发展 科技巨头承诺数十亿美元建房六年后：成果不及当初“豪言”，加州审批与商业现实成掣肘 招银国际：重申三一国际目标价8.7港元增长趋势明确后续来了 前北约秘书长：英国公众没有意识到增加国防开支的必要性 中信里昂：料网易-S次季游戏收入反弹年增17.9%太强大了 小摩：料澳门博彩业下半年GGR增13% 看好银河娱乐等官方处理结果 麦当劳回应招募退休员工：采用多元用工方式提供合法报酬和商保后续反转来了 消息称加盟智界再次联手余承东：赵明回应了三个字 CVC也不玩了？超6成机构未出手，90家“已退圈”丨投中嘉川官方通报

给大模型智能体组一桌“大富翁”，他们会选择合作还是相互拆台？实验表明，不同的模型在这件事上喜好也不一样，比如基于 Claude 3.5 Sonnet 的智能体，就会表现出极强的合作意识。

而 GPT-4o 则是主打一个“自私”，只考虑自己的短期利益。

谷歌让

这个结果来自 Google DeepMind 和一位独立研究者的最新合作。参加游戏的智能体背后的模型分别是 GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Flash。

每个模型各产生 12 个智能体，这 12 个智能体坐在一桌上进行博弈。游戏看上去大富翁有一点相似，但相对简单，玩家只需要对手中的“资源”做出处置。这当中，虽然每个玩家心里都有各自的小九九，但作者关注的目标，是让总体资源变得更多。

谷歌让

12 个智能体组一桌游戏

作者组织的“大富翁”游戏，真名叫做 Donor Game（捐赠博弈）。

在这过程中，作者关注的是各模型组成的智能体群体的表现，因此不同模型产生的智能体不会出现在同一局游戏当中。

再说简单些，就是 GPT 和 GPT 坐一桌，Claude 和 Claude 坐一桌。

每个桌上坐了 12 个智能体，它们各自手中都握有一定量的“资源”，系统会从这 12 名玩家中随机抽取 2 个，分别作为“捐赠者”和“受赠者”。

捐赠者可以选择将自己手中的部分资源捐赠给受赠者，受赠者获得的资源是捐赠者捐赠资源的两倍。

也就是说，捐赠者每花费掉一份资源时，受赠者都可以获得两份，这也是总体资源能够增加的来源。

不过对于单个个体而言，选择不进行捐献，在短期内的收益会更高。

在做决定之时，捐赠者能够知道受赠者之前做出的决定，从而判断是否要捐赠。

这样的“捐赠”，每一代中一共会进行 12 次，一轮结束后，手中资源量排在前 6 名的智能体可以保留至下一代。

同时，下一代会产生 6 个新的智能体，这 6 个新智能体会从留下的 6 个智能体那里学习策略，但同时为了差异化也会引入随机变异。

包括初始的一代在内，基于每个模型产生的智能体，都会进行十轮迭代。

谷歌让