日韩美女在线观看一区,亚洲午夜久久久久久久久电影院 ,自拍亚洲一区欧美另类

一群AI玩狼人殺，GPT-5斷崖式領(lǐng)先，勝率達(dá)到了驚人的96.7%。

OpenAI的總裁格雷格·布羅克曼轉(zhuǎn)發(fā)了這樣的一個基準(zhǔn)測試：讓7個強(qiáng)大的LLMs，包括開源和閉源，玩了210場完整的狼人殺。

GPT-5表現(xiàn)非常出色，是目前當(dāng)之無愧的MVP。

國產(chǎn)模型中Qwen3和Kimi-K2分別位列第4和第6。

官方博客分享了一些有趣的分析，包括這些模型在狼人殺游戲中表現(xiàn)出的性格特質(zhì)。

比如Kimi-K2居然學(xué)會了“悍跳”：在作為狼人且犯了明顯錯誤的情況下，選擇公開聲稱自己是女巫，并成功扭轉(zhuǎn)了局面。

可以說是很大膽激進(jìn)了。

讓AI玩狼人殺

先簡單介紹一下游戲規(guī)則，狼人殺是一種社交推理游戲，游戲分為交替進(jìn)行的夜晚和白天階段。

在該基準(zhǔn)的設(shè)置中，游戲僅有6名玩家：2名狼人和4名村民，包括預(yù)言家和女巫。

夜晚時狼人選擇目標(biāo)，而女巫和預(yù)言家行動；白天時桌上的玩家進(jìn)行討論和投票，淘汰被認(rèn)為是“狼人”的選手。村民獲勝的條件是淘汰所有狼人，而狼人的獲勝條件是取得數(shù)量優(yōu)勢。

狼人基準(zhǔn)設(shè)置的官方是這樣介紹這款基準(zhǔn)的：

當(dāng)前的基準(zhǔn)測試告訴我們模型能否解決方程式或調(diào)試代碼，但它們不能告訴我們模型在交叉詢問下是否會崩潰，在壓力下是否會拋棄盟友，或者操縱房間做出錯誤決策。

當(dāng)我們把 AI 代理部署到人類團(tuán)隊中時，這些行為模式與數(shù)學(xué)和代碼分?jǐn)?shù)同樣重要。

狼人殺游戲迫使模型處理信任、欺騙和社會動態(tài)，這些技能是它們作為自主代理時所需要的。

在這場測試中，每對模型進(jìn)行10場比賽：其中5場由一個模型控制狼玩家，另一個模型運(yùn)行村民；另外5場角色互換。

這種設(shè)置能夠看到兩個維度：當(dāng)模型是狼人時，它操縱其他玩家；當(dāng)它是村民時，它抵抗被操縱。

7個模型兩兩對決時，GPT-5完全沒有敗績。

測試方通過獨(dú)立的Elo評分系統(tǒng)和三項互補(bǔ)指標(biāo)進(jìn)行量化：村民陣營因誤除己方預(yù)言家或女巫而造成的自損程度、識別協(xié)同作戰(zhàn)狼人的速度，以及狼人陣營在多日游戲中維持對村莊控制的有效性。

在整個群體中，GPT-5獨(dú)占鰲頭。其他模型則形成了一個第二梯隊，根據(jù)角色不同展現(xiàn)出不同的優(yōu)勢。這就是運(yùn)行角色條件Elo的目的：它將操縱者（狼人）與抗操縱者（村民）區(qū)分開來。

作為狼，最強(qiáng)的模型不僅追求單一的錯判，而是在數(shù)天內(nèi)積累勢頭，將夜間選擇與公開故事保持一致，控制壓力節(jié)奏，并在新指控出現(xiàn)時保持備選方案。

GPT-5憑借嚴(yán)格的數(shù)日控制主導(dǎo)，始終占據(jù)頂端；而Kimi-K2和Gemini 2.5 Pro展現(xiàn)出高影響力但波動性大的風(fēng)格，能夠迫使房間或扭轉(zhuǎn)敘事，但常因失誤或過度而暴露。

其余模型則相對落后：GPT-5-mini、2.5 Flash和Qwen3可以影響投票，但很少能將欺騙持續(xù)到第二天，而GPT-OSS保持透明且容易被擊退。

在作為村民防守時，任務(wù)則會反轉(zhuǎn)：過濾掉沒有偏執(zhí)的指控，懲罰矛盾之處，并避免隧道式的錯誤排除。

好村民會維護(hù)信息秩序：他們讓討論錨定在公共事實上，提出有針對性的問題，并在公開場合更新信念，這樣，狼的“故事”就難以誤導(dǎo)他們。

在抵抗誤導(dǎo)的表現(xiàn)上，GPT-5再次確立了標(biāo)桿水準(zhǔn)。其結(jié)構(gòu)化的平局裁決規(guī)則與實時公開更新的機(jī)制，使得長期誤導(dǎo)行為難以得逞。

Gemini 2.5 Pro擅長防御，并能堅決拒絕誘餌陷阱。

Qwen3不總是主導(dǎo)局勢，但能始終保持立場穩(wěn)定性，能夠有效規(guī)避災(zāi)難性誤判。

Kimi-K2抗壓穩(wěn)定性不足：能憑借勢頭扭轉(zhuǎn)投票，但在局勢精確時容易波動。

GPT-5-mini與Flash的表現(xiàn)勉勉強(qiáng)強(qiáng)，在持續(xù)敘事壓力下容易被誤導(dǎo)。

而GPT-OSS的表現(xiàn)簡直一敗涂地，被耍得團(tuán)團(tuán)轉(zhuǎn)。

測試方還透露，在早期測試中，他們實際驗證的模型數(shù)量超過上述7個，發(fā)現(xiàn)能力提升并非線性漸進(jìn)，而是存在行為模式的躍遷，弱模型和強(qiáng)模型差異極大：

弱模型表現(xiàn)混亂：玩家各自為政，狼人選擇明顯目標(biāo)；強(qiáng)模型則展現(xiàn)紀(jì)律性：規(guī)范投票，制定夜間刀人計劃，分配角色任務(wù)，甚至策略性地犧牲狼隊友。

此外，推理模型≠優(yōu)秀表現(xiàn)。

經(jīng)過推理優(yōu)化的模型大多表現(xiàn)卓越，但技術(shù)標(biāo)簽并不能保證實際能力。在更廣泛的測試中，o3展現(xiàn)出卓越的高紀(jì)律性玩法，而o4-mini則表現(xiàn)脆弱：雖擅長局部辯論，但容易陷入固定套路、適應(yīng)能力差，且經(jīng)常因投票時機(jī)不當(dāng)而自我暴露。

不過，網(wǎng)友們更關(guān)心的是那些未參賽選手的表現(xiàn)——比如Grok和Claude——希望有更多的模型加入測試。

測試方表示目前正在聯(lián)系了，或許可以期待一下。

模型表現(xiàn)出不同的性格

有趣的是，在這場測試中，每個模型都表現(xiàn)出了不同的風(fēng)格。

舉幾個風(fēng)格明顯的例子：

GPT-5 → 冷靜沉穩(wěn)的架構(gòu)師，為游戲建立秩序，主導(dǎo)每次辯論并讓全場遵循其節(jié)奏，展現(xiàn)出絕對的權(quán)威與控制力；GPT-oss → 猶豫防御型，受壓時常退縮，呈現(xiàn)出畏怯特征；Kimi-K2 → 大膽激進(jìn)的高風(fēng)險賭徒，快速積累勢頭，擅長迫使對手過早表態(tài)，但后期表現(xiàn)波動極大。

尤其是Kimi-K2，表現(xiàn)出了令人矚目的創(chuàng)造力和冒險行為。

在作為狼人且犯了明顯錯誤的情況下，毅然“悍跳”，公開聲稱自己是女巫，并成功扭轉(zhuǎn)了局面。