@willccbb (Responsable de la recherche, Prime Intellect) sur le fonctionnement réel des environnements RL : « Un environnement est essentiellement une évaluation. Vous avez des tâches d'entrée, un harnais, et à la fin, il évalue comment votre modèle ou agent performe. C'est la configuration que nous utilisons pour les évaluations et l'entraînement RL. » Il ajoute que l'avenir ne consiste pas seulement à « obtenir 100 000 GPU dans un énorme cluster. »
17,71K