一群AI玩狼人殺,GPT-5斷崖式領(lǐng)先,勝率達(dá)到了驚人的96.7%。
OpenAI的總裁格雷格·布羅克曼轉(zhuǎn)發(fā)了這樣的一個基準(zhǔn)測試:讓7個強(qiáng)大的LLMs,包括開源和閉源,玩了210場完整的狼人殺。
GPT-5表現(xiàn)非常出色,是目前當(dāng)之無愧的MVP。
國產(chǎn)模型中Qwen3和Kimi-K2分別位列第4和第6。
官方博客分享了一些有趣的分析,包括這些模型在狼人殺游戲中表現(xiàn)出的性格特質(zhì)。
比如Kimi-K2居然學(xué)會了“悍跳”:在作為狼人且犯了明顯錯誤的情況下,選擇公開聲稱自己是女巫,并成功扭轉(zhuǎn)了局面。
可以說是很大膽激進(jìn)了。
讓AI玩狼人殺
先簡單介紹一下游戲規(guī)則,狼人殺是一種社交推理游戲,游戲分為交替進(jìn)行的夜晚和白天階段。
在該基準(zhǔn)的設(shè)置中,游戲僅有6名玩家:2名狼人和4名村民,包括預(yù)言家和女巫。
夜晚時狼人選擇目標(biāo),而女巫和預(yù)言家行動;白天時桌上的玩家進(jìn)行討論和投票,淘汰被認(rèn)為是“狼人”的選手。村民獲勝的條件是淘汰所有狼人,而狼人的獲勝條件是取得數(shù)量優(yōu)勢。
狼人基準(zhǔn)設(shè)置的官方是這樣介紹這款基準(zhǔn)的:
當(dāng)前的基準(zhǔn)測試告訴我們模型能否解決方程式或調(diào)試代碼,但它們不能告訴我們模型在交叉詢問下是否會崩潰,在壓力下是否會拋棄盟友,或者操縱房間做出錯誤決策。
當(dāng)我們把 AI 代理部署到人類團(tuán)隊中時,這些行為模式與數(shù)學(xué)和代碼分?jǐn)?shù)同樣重要。
狼人殺游戲迫使模型處理信任、欺騙和社會動態(tài),這些技能是它們作為自主代理時所需要的。
在這場測試中,每對模型進(jìn)行10場比賽:其中5場由一個模型控制狼玩家,另一個模型運(yùn)行村民;另外5場角色互換。
這種設(shè)置能夠看到兩個維度:當(dāng)模型是狼人時,它操縱其他玩家;當(dāng)它是村民時,它抵抗被操縱。
7個模型兩兩對決時,GPT-5完全沒有敗績。
測試方通過獨(dú)立的Elo評分系統(tǒng)和三項互補(bǔ)指標(biāo)進(jìn)行量化:村民陣營因誤除己方預(yù)言家或女巫而造成的自損程度、識別協(xié)同作戰(zhàn)狼人的速度,以及狼人陣營在多日游戲中維持對村莊控制的有效性。
在整個群體中,GPT-5獨(dú)占鰲頭。其他模型則形成了一個第二梯隊,根據(jù)角色不同展現(xiàn)出不同的優(yōu)勢。這就是運(yùn)行角色條件Elo的目的:它將操縱者(狼人)與抗操縱者(村民)區(qū)分開來。
作為狼,最強(qiáng)的模型不僅追求單一的錯判,而是在數(shù)天內(nèi)積累勢頭,將夜間選擇與公開故事保持一致,控制壓力節(jié)奏,并在新指控出現(xiàn)時保持備選方案。
GPT-5憑借嚴(yán)格的數(shù)日控制主導(dǎo),始終占據(jù)頂端;而Kimi-K2和Gemini 2.5 Pro展現(xiàn)出高影響力但波動性大的風(fēng)格,能夠迫使房間或扭轉(zhuǎn)敘事,但常因失誤或過度而暴露。
其余模型則相對落后:GPT-5-mini、2.5 Flash和Qwen3可以影響投票,但很少能將欺騙持續(xù)到第二天,而GPT-OSS保持透明且容易被擊退。
在作為村民防守時,任務(wù)則會反轉(zhuǎn):過濾掉沒有偏執(zhí)的指控,懲罰矛盾之處,并避免隧道式的錯誤排除。
好村民會維護(hù)信息秩序:他們讓討論錨定在公共事實上,提出有針對性的問題,并在公開場合更新信念,這樣,狼的“故事”就難以誤導(dǎo)他們。
在抵抗誤導(dǎo)的表現(xiàn)上,GPT-5再次確立了標(biāo)桿水準(zhǔn)。其結(jié)構(gòu)化的平局裁決規(guī)則與實時公開更新的機(jī)制,使得長期誤導(dǎo)行為難以得逞。
Gemini 2.5 Pro擅長防御,并能堅決拒絕誘餌陷阱。
Qwen3不總是主導(dǎo)局勢,但能始終保持立場穩(wěn)定性,能夠有效規(guī)避災(zāi)難性誤判。
Kimi-K2抗壓穩(wěn)定性不足:能憑借勢頭扭轉(zhuǎn)投票,但在局勢精確時容易波動。
GPT-5-mini與Flash的表現(xiàn)勉勉強(qiáng)強(qiáng),在持續(xù)敘事壓力下容易被誤導(dǎo)。
而GPT-OSS的表現(xiàn)簡直一敗涂地,被耍得團(tuán)團(tuán)轉(zhuǎn)。
測試方還透露,在早期測試中,他們實際驗證的模型數(shù)量超過上述7個,發(fā)現(xiàn)能力提升并非線性漸進(jìn),而是存在行為模式的躍遷,弱模型和強(qiáng)模型差異極大:
弱模型表現(xiàn)混亂:玩家各自為政,狼人選擇明顯目標(biāo);強(qiáng)模型則展現(xiàn)紀(jì)律性:規(guī)范投票,制定夜間刀人計劃,分配角色任務(wù),甚至策略性地犧牲狼隊友。
此外,推理模型≠優(yōu)秀表現(xiàn)。
經(jīng)過推理優(yōu)化的模型大多表現(xiàn)卓越,但技術(shù)標(biāo)簽并不能保證實際能力。在更廣泛的測試中,o3展現(xiàn)出卓越的高紀(jì)律性玩法,而o4-mini則表現(xiàn)脆弱:雖擅長局部辯論,但容易陷入固定套路、適應(yīng)能力差,且經(jīng)常因投票時機(jī)不當(dāng)而自我暴露。
不過,網(wǎng)友們更關(guān)心的是那些未參賽選手的表現(xiàn)——比如Grok和Claude——希望有更多的模型加入測試。
測試方表示目前正在聯(lián)系了,或許可以期待一下。
模型表現(xiàn)出不同的性格
有趣的是,在這場測試中,每個模型都表現(xiàn)出了不同的風(fēng)格。
舉幾個風(fēng)格明顯的例子:
GPT-5 → 冷靜沉穩(wěn)的架構(gòu)師,為游戲建立秩序,主導(dǎo)每次辯論并讓全場遵循其節(jié)奏,展現(xiàn)出絕對的權(quán)威與控制力;GPT-oss → 猶豫防御型,受壓時常退縮,呈現(xiàn)出畏怯特征;Kimi-K2 → 大膽激進(jìn)的高風(fēng)險賭徒,快速積累勢頭,擅長迫使對手過早表態(tài),但后期表現(xiàn)波動極大。
尤其是Kimi-K2,表現(xiàn)出了令人矚目的創(chuàng)造力和冒險行為。
在作為狼人且犯了明顯錯誤的情況下,毅然“悍跳”,公開聲稱自己是女巫,并成功扭轉(zhuǎn)了局面。
即使由于一開始的失誤(泄露了關(guān)鍵信息),這一局游戲最終沒能讓它獲勝,但依然表現(xiàn)出了極高的游戲水平。
測試方表示,這個基準(zhǔn)真正重要的其實是幫助人們理解LLMs在社會系統(tǒng)中的行為方式:它們的個性、影響模式以及在壓力下的群體動態(tài)。
通過繪制這些行為特征,就可以組裝具有特定個性組合的智能體群體:一些懷疑論者、說服者,或者分析者。
這為模擬復(fù)雜的社會互動打開了大門。
長遠(yuǎn)來看,狼人基準(zhǔn)的目標(biāo)是實現(xiàn)人工智能驅(qū)動的市場研究——通過精心篩選的模型人格進(jìn)行動態(tài)模擬,預(yù)測現(xiàn)實世界中的用戶反應(yīng),從而優(yōu)化成本高昂、效率低下的人類焦點小組。
這個目標(biāo)還很遙遠(yuǎn),目前他們正因昂貴的算力成本尋找合作中。
他們愿意分享詳細(xì)的日志、案例分析和按角色的行為洞察,以幫助合作方了解模型在社交環(huán)境中的表現(xiàn)。
GPT5的進(jìn)步比想象中更大
在這次狼人殺基準(zhǔn)測試中,GPT-5的表現(xiàn)可以說是非常出色了。
在其它基準(zhǔn)測試中,它的表現(xiàn)也沒有讓人失望。
Epoch AI發(fā)布的一份新報告證實:GPT-5在主要基準(zhǔn)測試中,相比GPT-4實現(xiàn)了巨大的性能提升。
數(shù)據(jù)顯示,相比起GPT-4,GPT-5在Mock AIME上實現(xiàn)了 80%的飛躍,在Level 5 MATH上得分高達(dá)98%(GPT-4得分僅23%),提升了75%。
這個報告引發(fā)了網(wǎng)友的一系列討論,認(rèn)為這是一個重大的進(jìn)步。
在發(fā)布時,GPT-4被廣泛視為相較于GPT-3的一次重大飛躍,展示了擴(kuò)大訓(xùn)練計算規(guī)模的高回報。
而用戶對GPT-5的接受度則更為復(fù)雜,覺得它似乎沒有像GPT-4那樣取得顯著的進(jìn)步,這可能與模型的開發(fā)方式有關(guān):GPT-5專注于強(qiáng)化學(xué)習(xí),而不是提升預(yù)訓(xùn)練的規(guī)模。
報告顯示,GPT-5在一些顯著的性能基準(zhǔn)測試中表現(xiàn)遠(yuǎn)超GPT-4,類似于GPT-4在其時代被廣泛引用的基準(zhǔn)測試中超越GPT-3的情況——
雖然這些改進(jìn)不能直接比較,但它們確實表明GPT-5和GPT-4 都是相較于上一代的重大進(jìn)步。
也有網(wǎng)友認(rèn)為,數(shù)字上的提升并不能代表什么,重要的還是體驗感。
不過體驗感這東西就見仁見智了。
Epoch AI提出,這種體驗上的差異可能和產(chǎn)品發(fā)布的頻率有關(guān)。
鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請第一時間聯(lián)系我們修改或刪除,多謝。