Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Dwarkesh Patel
Baru saja melakukan ini dengan beberapa teman irl.
Rasanya seperti saya membaca buku dengan benar untuk pertama kalinya dalam hidup saya.
Kami mendapatkan pemahaman yang jauh lebih baik tentang bagaimana semua pertanyaan dan bukti yang memotivasi benar-benar cocok bersama dalam tesis.
Saling mengajukan pertanyaan yang sangat mendasar (dan kemudian mencoba menjawabnya) membuat kami menyadari betapa suramnya peta medan kami sebenarnya. Dan betapa membingungkannya interpretasi asli kita tentang konsep yang tampaknya sederhana.

Dwarkesh Patel18 Sep, 03.57
Akan menyenangkan untuk melakukan klub membaca untuk buku/makalah yang akan saya lalui untuk mempersiapkan wawancara (atau hanya tertarik untuk membaca).
Cara terbaik untuk mengatur? Twitter Langsung? Perselisihan/Kelonggaran? Atau hanya men-tweet pemikiran dan meminta orang berdiskusi di komentar? Sesuatu yang lain?
69
Apa yang harus saya tanyakan kepada @RichardSSutton?
Bapak pembelajaran penguatan, pemenang Penghargaan Turing tahun ini; penulis *The Bitter Lesson* dan baru-baru ini, *The Era of Experience*?

Deedy19 Apr 2025
Rich Sutton just published his most important essay on AI since The Bitter Lesson: "Welcome to the Era of Experience"
Sutton and his advisee Silver argue that the “era of human data,” dominated by supervised pre‑training and RL‑from‑human‑feedback, has hit diminishing returns; the future will belong to agents that
— act continuously in real or simulated worlds,
— generate and label their own training data through interaction
— optimise rewards grounded in the environment rather than in human preference alone, and
— refine their world‑models and plans over lifelong streams of experience.

22
Bagaimana cara kerja backprop dengan RL?
Keunggulan backprop adalah memperbarui SETIAP parameter individu sebanding dengan seberapa banyak goyangannya memengaruhi kerugian. Ini hanya mungkin jika Anda tahu bagaimana mengubah setiap parameter memengaruhi fungsi kerugian.
Tapi tentu saja dengan RL ini tidak terjadi: lingkungan (dan imbalan yang dihasilkannya) adalah sistem yang sama sekali terpisah. Anda tidak memiliki fungsi yang dapat dibedakan terus menerus yang memberi tahu Anda seberapa banyak goyangan setiap parameter memengaruhi kemungkinan jatuh dari tebing.
Solusinya cukup pintar! Berikut adalah beberapa cara untuk membuat proxy yang dapat dibedakan untuk hadiah:
Metode gradien kebijakan: Anda tidak dapat membedakan reward sehubungan dengan jaringan. Tetapi Anda dapat membedakan probabilitas berbagai tindakan/token yang disarankan oleh jaringan. Jadi buat saja kerugian = probabilitas (jumlah log negatif) DITIMBANG oleh hadiah. Kerugian lebih tinggi ketika imbalan lebih rendah, sehingga model belajar untuk menghasilkan token yang mengarah pada imbalan yang lebih tinggi pada probabilitas yang lebih tinggi.
Q-learning: Sekali lagi, hadiah tidak dapat dibedakan sehubungan dengan jaringan. Tapi Anda tahu apa itu? Prediksi jaringan tentang hadiah. Dan Anda dapat memperbaruinya berdasarkan seberapa salah prediksi itu. Sekarang setelah Anda dapat memprediksi tindakan apa yang akan mengarah pada imbalan apa, kebijakan Anda hanya dapat mengambil tindakan imbalan tertinggi yang diharapkan.

375
Teratas
Peringkat
Favorit