熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
剛剛合併了一個環境的 PR,以改進 LLM 作為法官,並評估模型的判斷能力!
您是否知道所有可驗證的 RL 環境幾乎等同於基準測試(反之亦然!因此,我們在 Atropos 的基礎中添加了一個評估命令,現在您可以在 Atropos 環境中運行基準測試。
我們對使用如此多過時或無法使用的基準測試框架感到沮喪,因此我們在我們的 RL 環境框架 Atropos 中實施了僅評估模式。
因此,我們從現有環境之外的第一個移植是 @natolambert 的 Reward-Bench!
注意:目前僅支援生成式獎勵模型(常規 LLM 評委)。
在這裡查看公關:

20.66K
熱門
排行
收藏