المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
منشور مثير للاهتمام. البتات / FLOP من RL أقل بمقدار 3-6 OOMs من التدريب المسبق.
على الرغم من @tamaybes أوضحت أن البتات من RL يمكن أن تستهدف المهارات المحددة التي تريد تعلمها. في حين أن التدريب المسبق يوزع هذه البتات فقط على تعلم علاقات ASCII العشوائية ومليون شيء آخر غير ذي صلة.
علاوة على ذلك ، بالنسبة لأي مهمة معينة ، هناك الكثير من القرارات التي لا يهم تنفيذها المحدد كثيرا ، وزوجان تريد حقا تثبيتهما. يمكن ل RL تركيز الإشارة على تعلم كيفية عدم إفساد الحالات الحرجة في الحلقة ، بدلا من الحصول على كل رمز مميز صحيح. صورة مفيدة من إحدى محاضرات @svlevine القديمة (B هي الحالة الحرجة):
أعتقد أن هذا لا يزال يتصل ب RL لكونه أقل كثافة بكثير من المعلومات المسبقة. وأنا أتفق مع توبي على أن اكتساب الذكاء لكل FLOP من تدريب RL env سيكون أقل مما يفترضه الكثيرون.
العمل على منشور حول هذا الموضوع مع @EgeErdil2 و @MatthewJBar و @tamaybes. نأمل أن نتمكن من النشر الأسبوع المقبل.


الأفضل
المُتصدِّرة
التطبيقات المفضلة