Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Nathan Lambert
Mencari tahu @allen_ai AI, model terbuka, RLHF, penyetelan halus, dll
Hubungi melalui email.
Menulis @interconnectsai
Menulis Buku RLHF
Pelari gunung
Seiring waktu pengkodean hanya akan menjadi lebih asinkron.
Ini akan terjadi lebih cepat dari yang diharapkan orang, tetapi tantangan kode produk sangat tinggi dan kami tidak terlalu dekat untuk mengotomatiskannya.
Agen kursor adalah agen terburuk, tetapi kursor sejauh ini adalah IDE terbaik sehingga menang hari ini.

Teknium (e/λ)17 Sep, 23.36
Orang-orang antara kode claude, codex dan kursor ada pemenang yang jelas - kursor.
IDE yang tepat hanya.. cara kode yang tepat. Belum lagi dukungan untuk model apa pun (termasuk opus yang karena alasan tertentu cc tidak? Lol) tetapi juga untuk dukungan pos pemeriksaan yang ditawarkannya yang tidak dimiliki oleh alat cli, membuatnya mudah untuk dikembalikan ketika ai pasti merusak basis kode Anda. Frustrasi terbesar kursor adalah dalam lag dan sesuatu tentang kerangka kerja agen mereka yang memberi tahu Claude untuk menguji kode setelah setiap perubahan yang akan bagus jika lingkungan saya mendukungnya untuk dapat melakukan itu tetapi tidak.
Kedua adalah kode Claude karena hanya berfungsi, bahkan jika itu tidak ideal, Anda tidak perlu memahami banyak hal untuk membuatnya beroperasi sebagaimana mestinya. Itu membuat kode dengan baik.
Akhirnya, tempat terakhir adalah codex yang mungkin atau mungkin tidak memiliki model yang lebih baik daripada soneta tetapi jauh ini masih terbelakang.
Agen CLI yang sepenuhnya otonom bukanlah cara untuk membuat kode. Kursor memungkinkan saya memeriksa dan menangani setiap perubahan jauh lebih bersih dan lebih cepat daripada cc dan codex tidak memiliki plugin untuk jetbrains yang saya coba ini bahkan untuk memeriksa pengeditan saat saya pergi dan membutuhkan persetujuan tanpa akhir jika saya ingin melakukannya di cli.
79
Saya akhirnya membuat alat untuk membandingkan penyelesaian dari model terlatih SFT vs. RLHF. Ini adalah situs mini untuk buku RLHF yang sudah lama saya inginkan.
RLHFBOOK Dot com Slash Library
Selalu sulit untuk mengatakan apa yang dilakukan RLHF terhadap model dalam saluran pasca-pelatihan yang lebih kompleks. Perbedaannya tidak kentur di luar penambahan yang jelas dari pemformatan penurunan harga yang lebih baik. Bagian halus ini adalah tulisan yang sedikit lebih baik, struktur konten yang sedikit lebih baik, dan seringkali lebih banyak warna dalam prosa.
Masih hari ini ada sangat sedikit model selain yang kami bangun dalam beberapa tahun terakhir di Ai2 untuk melakukan ini (alat peraga untuk @huggingface untuk melepaskan lebih banyak pos pemeriksaan menengah). Saya menghasilkan untuk memulai 3 penyelesaian per 16 petunjuk di 18 model (9 pasang model SFT <-> RLHF'd) untuk menunjukkan sebelum dan sesudah.
Ini mudah-mudahan merupakan sumber yang bagus bagi akademisi dan orang-orang yang belajar untuk mendapatkan pemahaman dasar tentang bagaimana teknik pelatihan yang berbeda benar-benar mengubah model. Saya senang untuk membangun ini lebih lanjut saat umpan balik masuk!
Data dirilis dan dilisensikan secara permisif (kecuali fakta bahwa beberapa penyelesaian Tulu memiliki lisensi Llama).


514
Teratas
Peringkat
Favorit