一区二区和激情视频,亚洲色www成人永久网址

68 頁論文再錘大模型競技場：Llama4 發(fā)布前私下測試 27 個版本，只取最佳成績

2025-05-03 17:38:30 小編：鑫昌軟件園

大模型競技場的可信度，再次被錘。

最近一篇名為《排行榜幻覺》（The Leaderboard Illusion）的論文在學術圈引發(fā)關注。

它指出，如今被視為 LLM 領域首選排行榜的 Chatbot Arena，存在諸多系統(tǒng)問題。比如：

少數(shù)大廠可以私下測試多個模型版本，Llama4 在發(fā)布前甚至測了 27 個版本，然后只公開最佳表現(xiàn)。

數(shù)據(jù)訪問不平等，專有模型獲得的用戶反饋數(shù)據(jù)顯著多于開源模型。

試用 Arena 數(shù)據(jù)訓練，可提升模型性能高達 112%。

205 個模型被悄悄靜默棄用，遠超過官方列出的 47 個。

大神卡帕西也站出來表示，他個人也察覺出了一些異樣。

有一段時間，Claude-3.5 是我覺得最好用的模型，但是在競技場中排名很低。當時我在網(wǎng)上也看到了類似的反饋。

對于最新質疑，大模型競技場官方 Lmrena.ai 已經給出回應：

確實幫助廠商進行測試，最后發(fā)布最受歡迎的版本；

但這不代表競技場有偏見，排行榜反映數(shù)百萬人類的個人真實偏好。

快速刷榜不符合模型進步實際情況

具體來看這項研究，它收集了 243 個模型的 200 + 萬場競技場 battle，并結合私人真實測試，通過模擬實驗確定了不同情況下對模型排名的影響。

主要挖掘出了 4 方面問題。

第一，私人測試和有選擇性的結果報告。

少數(shù)大模型廠商（如 Meta、Google、Amazon）被允許私下測試多個模型變體，并只公開最佳表現(xiàn)的版本。

比如，Meta 在 Llama 4 發(fā)布前曾私下測試 27 個變體，加上多模態(tài)、代碼等榜單，Meta 可能一共測試過 43 個變體。

這種“最佳 N 選 1”策略導致排名膨脹。

例如，當測試 5 個變體時，期望分數(shù)增加了約 20 分；當測試 20 個變體時，增加了約 40 分；當測試 50 個變體時，增加了約 50 分。

研究團隊認為，當多個大模型廠商采用這種策略時，他們實際上是在相互競爭各自變體分布的最大值，而非真實的模型能力。

我們觀察到，像 Google、OpenAI 和 xAI 在短時間內輪番霸榜，表明他們都在采用類似的策略。

例如，2024 年 11 月期間，Google 的 Gemini (Exp 1114)、OpenAI 的 ChatGPT-4o (20241120) 和 Google 的 Gemini (Exp 1121) 在一周內先后占據(jù)榜首。類似地，2025 年 3 月 4 日，OpenAI 的 GPT-4.5 和 xAI 的 Grok-3 同一天爭奪榜首位置。

這種排行榜的快速變化不太可能反映真實的技術進步，因為開發(fā)和完善一個全新的基礎模型通常需要數(shù)月時間。

相反，這很可能是多個大模型廠商同時使用“最佳 N 選 1”策略的結果，每個提供商都試圖優(yōu)化自己變體池中的最大值。

此外，團隊還發(fā)現(xiàn)大模型廠商可以撤回表現(xiàn)不好的模型。

第二，數(shù)據(jù)訪問不平等。專有模型獲得的用戶反饋數(shù)據(jù)顯著多于開源模型。

Google 和 OpenAI 分別獲得了約 19.2% 和 20.4% 的所有測試數(shù)據(jù)，而全部 83 個開放權重模型僅獲得約 29.7% 的數(shù)據(jù)。

第三，大模型廠商使用競技場數(shù)據(jù)進行訓練，排名可以顯著提升。

我們觀察到，將競技場訓練數(shù)據(jù)比例從 0% 增加到 70%，在 ArenaHard 上的勝率從 23.5% 提高到了 49.9%，實現(xiàn)了一倍多的增長。

這還是一個保守估計，因為部分提供商擁有數(shù)據(jù)訪問優(yōu)勢。

第四，研究發(fā)現(xiàn)，許多模型被”靜默棄用”（減少采樣率至接近 0%）。

在 243 個公開模型中，有 205 個被靜默棄用，遠超過官方列出的 47 個。這種做法特別影響開源和開放權重模型，會導致排名不可靠。

在提出問題后，研究團隊還給出了 5 點改進建議：

禁止提交后撤回分數(shù)

限制每個提供商的非正式模型數(shù)量

公平應用模型棄用政策，所有模型一視同仁

實施公平采樣方法

提高模型棄用透明度，即時通知被淘汰模型

這項研究由 Cohere 團隊、普林斯頓大學、斯坦福大學等機構研究人員共同提出。

其中 Cohere 也是一家大模型廠商，由 Transformer 作者 Aidan Gomez 等人創(chuàng)辦，推出了 Command R + 系列模型。

“競技場不應該是唯一基準參考”

大模型競技場誕生 2 年來，因為機制的特殊性，其參考價值越來越高，大廠發(fā)模型也必來這里打榜，甚至是將未發(fā)布模型提前在此預熱造勢。

它最大的優(yōu)勢在于基于人類偏好評估，用戶可以在同一平臺上同時運行多個聊天機器人模型，如 GPT-4、ChatGPT-3.5 等，并針對相同的問題或任務進行比較分析，可以更直觀感受不同模型的差異。

最近一段時間，由于 Llama4 刷榜風波，給競技場的可信度也造成了一定影響。

對于這篇質疑論文，官方現(xiàn)在已做出回應。反駁了一些問題：

LMArena 模擬的缺陷：圖 7/8 中的模擬存在問題。這就像說：NBA 球員的平均三分命中率是 35%。斯蒂芬?庫里擁有 NBA 球員最高的三分命中率 42%。這不公平，因為他來自 NBA 球員的分布，而所有球員都有相同的潛在平均水平。

數(shù)據(jù)不實：文章中的許多數(shù)據(jù)并不反映現(xiàn)實：請參閱幾天前發(fā)布的博客了解來自不同提供商測試模型數(shù)量的實際統(tǒng)計數(shù)據(jù)。例如，開放模型占比為 40%，而非文章聲稱的 8.8%！

112% 性能提升的誤導性說法：這一說法基于 LLM 評判基準而非競技場中的實際人類評估。

政策并非“不透明”：我們設計并公開分享了政策，且這一政策已存在一年多。

模型提供商并非只選擇“最佳分數(shù)披露”：任何列在公共排行榜上的模型都必須是向所有人開放且有長期支持計劃的生產模型。我們會繼續(xù)使用新數(shù)據(jù)對模型進行至少一個月的測試。這些要點一直在我們的政策中明確說明。

展示非公開發(fā)布模型的分數(shù)毫無意義：對于通過 API 或開放權重不公開可用的預發(fā)布模型顯示分數(shù)沒有意義，因為社區(qū)無法使用這些模型或自行測試。這會違反我們一年多前就制定的政策。我們制定該政策正是為了明確這一規(guī)則：如果模型在排行榜上，它應該可供使用。

模型移除不平等或不透明的說法不實：排行榜旨在反映社區(qū)興趣，對最佳 AI 模型進行排名。我們也會淘汰不再向公眾開放的模型，這些標準在我們與社區(qū)進行私人測試的整個期間都已在政策中公開說明。

至于情況到底如何，可能還要等子彈飛一會兒。

不過這倒是也給 AI 社區(qū)提了個醒，或許不能只參考一個榜單了。

卡帕西就給出了一個備選項：OpenRouter。

OpenRouter 可以提供一個統(tǒng)一 API 接口來訪問使用不同模型，而且更加關注實際使用案例。

盡管在多樣性和使用量上還不夠優(yōu)秀，但我認為它有很大潛力。

參考鏈接：

[1]https://arxiv.org/abs/2504.20879
[2]https://x.com/karpathy/status/1917546757929722115
[3]https://x.com/lmarena_ai/status/1917492084359192890
本文來自微信公眾號：量子位（ID：QbitAI），作者：明敏，原標題《68 頁論文再錘大模型競技場！Llama4 發(fā)布前私下測試 27 個版本，只取最佳成績》