剛剛合併了一個環境的 PR,以改進 LLM 作為法官,並評估模型的判斷能力! 您是否知道所有可驗證的 RL 環境幾乎等同於基準測試(反之亦然!因此,我們在 Atropos 的基礎中添加了一個評估命令,現在您可以在 Atropos 環境中運行基準測試。 我們對使用如此多過時或無法使用的基準測試框架感到沮喪,因此我們在我們的 RL 環境框架 Atropos 中實施了僅評估模式。 因此,我們從現有環境之外的第一個移植是 @natolambert 的 Reward-Bench! 注意:目前僅支援生成式獎勵模型(常規 LLM 評委)。 在這裡查看公關:
20.66K