谷歌让-12-个-AI-大模型攒局玩“大富翁”:Claude3.5-爱合作-GPT-4o-最“自私”

谷歌让-12-个-AI-大模型攒局玩“大富翁”:Claude3.5-爱合作-GPT-4o-最“自私”

作者:news 发表时间:2025-08-13
巴西蔗糖减产推升糖价——涨势或才初现端倪官方通报来了 美国FDA或撤销辉瑞新冠疫苗对5岁以下儿童授权官方已经证实 美国国务卿鲁比奥和俄罗斯外长拉夫罗夫通话 为特朗普-普京会晤做准备又一个里程碑 孚日股份双主业进阶之路秒懂 宏华数科:技术筑基 全链拓新后续反转 美国7月关税收入飙升 但还是没能堵上越扯越大的预算窟窿官方通报 木头姐大举买入Block股票 减持Shopify 结构性机会涌现 99%权益类基金近一年收益为正最新进展 嘉泽新能董事长陈波: 三重跃迁 打造综合能源服务新生态反转来了 美国7月关税收入飙升 但还是没能堵上越扯越大的预算窟窿最新报道 美国债市:CPI数据强化降息预期 美债涨跌互见收益率曲线陡化又一个里程碑 道明证券:预计美联储将在9月提前开始降息是真的? 嘉泽新能董事长陈波: 三重跃迁 打造综合能源服务新生态 通胀数据鼓舞鸽派 市场对美联储大手笔降息的押注升温 引爆上一轮加密货币大崩盘的男人认罪 面临十余年铁窗生涯 嘉泽新能董事长陈波: 三重跃迁 打造综合能源服务新生态学习了 逾50家上市公司筹划中期分红 派现规模预估超820亿元实时报道 传统周期与科技成长携手走强 上证指数连续四日刷新年内纪录 人工智能需求推动 CoreWeave季度营收超预期这么做真的好么? 埃及客户亲临GENMA太仓制造基地进行RTG发运前检验,6台设备即将启运 技术+生态+人才,华为解锁天津数智产业发展密码 苹果有意将双层串联OLED技术用于iPhone 消息称已在评估实测是真的 欧股开盘普涨 欧洲斯托克600指数上涨0.3%记者时时跟进 麦当劳回应招募退休员工:采用多元用工方式 提供合法报酬和商保 暂停加征关税再延期,外贸企业怎么样了?最新报道 App Store上的“AI战役”开启? 马斯克怒斥苹果偏袒OpenAI,xAI预告反垄断诉讼实测是真的 前北约秘书长:英国公众没有意识到增加国防开支的必要性学习了 收评:创业板指涨1.24% 半导体、光刻机概念大涨 埃及客户亲临GENMA太仓制造基地进行RTG发运前检验,6台设备即将启运实垂了 美股财报哪里看?国内投资者必备!美股财报查询攻略最新报道 0812热点追踪:焦煤再次重返涨幅榜首 国家发改委:8月12日国内成品油价格按机制不作调整 美债收益率警报:今晚CPI或超预期 华尔街押注美联储年内两次降息 暂停加征关税再延期,外贸企业怎么样了? 韩央行:外资7月份净买入逾48亿美元韩国股票和债券后续来了 邦达亚洲:澳洲联储如期降息25个基点 澳元小幅下滑实测是真的 数字货币板块异动拉升,恒宝股份触及涨停 科技巨头承诺数十亿美元建房六年后:成果不及当初“豪言”,加州审批与商业现实成掣肘官方处理结果 招银国际:重申三一国际目标价8.7港元 增长趋势明确最新报道 高盛:首予大麦娱乐“买入”评级 目标价1.38港元 港股复星国际直线拉涨最新进展 收评:创指收涨超1% AI算力硬件股集体走强后续会怎么发展 科技巨头承诺数十亿美元建房六年后:成果不及当初“豪言”,加州审批与商业现实成掣肘 招银国际:重申三一国际目标价8.7港元 增长趋势明确后续来了 前北约秘书长:英国公众没有意识到增加国防开支的必要性 中信里昂:料网易-S次季游戏收入反弹 年增17.9%太强大了 小摩:料澳门博彩业下半年GGR增13% 看好银河娱乐等官方处理结果 麦当劳回应招募退休员工:采用多元用工方式 提供合法报酬和商保后续反转来了 消息称加盟智界再次联手余承东:赵明回应了三个字 CVC也不玩了?超6成机构未出手,90家“已退圈”丨投中嘉川官方通报

给大模型智能体组一桌“大富翁”,他们会选择合作还是相互拆台?实验表明,不同的模型在这件事上喜好也不一样,比如基于 Claude 3.5 Sonnet 的智能体,就会表现出极强的合作意识。

而 GPT-4o 则是主打一个“自私”,只考虑自己的短期利益。

谷歌让

这个结果来自 Google DeepMind 和一位独立研究者的最新合作。参加游戏的智能体背后的模型分别是 GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Flash。

每个模型各产生 12 个智能体,这 12 个智能体坐在一桌上进行博弈。游戏看上去大富翁有一点相似,但相对简单,玩家只需要对手中的“资源”做出处置。这当中,虽然每个玩家心里都有各自的小九九,但作者关注的目标,是让总体资源变得更多。

谷歌让

12 个智能体组一桌游戏

作者组织的“大富翁”游戏,真名叫做 Donor Game(捐赠博弈)。

在这过程中,作者关注的是各模型组成的智能体群体的表现,因此不同模型产生的智能体不会出现在同一局游戏当中。

再说简单些,就是 GPT 和 GPT 坐一桌,Claude 和 Claude 坐一桌。

每个桌上坐了 12 个智能体,它们各自手中都握有一定量的“资源”,系统会从这 12 名玩家中随机抽取 2 个,分别作为“捐赠者”和“受赠者”。

捐赠者可以选择将自己手中的部分资源捐赠给受赠者,受赠者获得的资源是捐赠者捐赠资源的两倍。

也就是说,捐赠者每花费掉一份资源时,受赠者都可以获得两份,这也是总体资源能够增加的来源。

不过对于单个个体而言,选择不进行捐献,在短期内的收益会更高。

在做决定之时,捐赠者能够知道受赠者之前做出的决定,从而判断是否要捐赠。

这样的“捐赠”,每一代中一共会进行 12 次,一轮结束后,手中资源量排在前 6 名的智能体可以保留至下一代。

同时,下一代会产生 6 个新的智能体,这 6 个新智能体会从留下的 6 个智能体那里学习策略,但同时为了差异化也会引入随机变异。

包括初始的一代在内,基于每个模型产生的智能体,都会进行十轮迭代。

谷歌让

相关文章