一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

剛剛合併了一個環境的 PR，以改進 LLM 作為法官，並評估模型的判斷能力！您是否知道所有可驗證的 RL 環境幾乎等同於基準測試（反之亦然！因此，我們在 Atropos 的基礎中添加了一個評估命令，現在您可以在 Atropos 環境中運行基準測試。我們對使用如此多過時或無法使用的基準測試框架感到沮喪，因此我們在我們的 RL 環境框架 Atropos 中實施了僅評估模式。因此，我們從現有環境之外的第一個移植是 @natolambert 的 Reward-Bench！注意：目前僅支援生成式獎勵模型（常規 LLM 評委）。在這裡查看公關：

20.66K