Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Bài viết thú vị. Bits/FLOP từ RL thấp hơn 3-6 OOMs so với việc huấn luyện trước. Mặc dù @tamaybes đã chỉ ra rằng các bits từ RL có thể nhắm đến những kỹ năng cụ thể mà bạn muốn học. Trong khi việc huấn luyện trước chỉ phân phối những bits đó qua việc học các mối quan hệ ASCII ngẫu nhiên và hàng triệu thứ không liên quan khác. Hơn nữa, đối với bất kỳ nhiệm vụ nào, có rất nhiều quyết định mà việc thực hiện cụ thể không quan trọng lắm, và một vài quyết định mà bạn thực sự muốn làm chính xác. RL có thể tập trung tín hiệu vào việc học cách không làm sai các trạng thái quan trọng trong tập, thay vì phải làm đúng từng token một. Hình ảnh hữu ích từ một trong những bài giảng cũ của @svlevine (B là trạng thái quan trọng): Tôi nghĩ rằng điều này vẫn cho thấy RL ít thông tin hơn nhiều so với việc huấn luyện trước. Và tôi đồng ý với Toby rằng lợi ích trí tuệ trên mỗi FLOP của việc huấn luyện môi trường RL sẽ ít hơn nhiều người nghĩ. Đang làm một bài viết về điều này với @EgeErdil2, @MatthewJBar, và @tamaybes. Hy vọng chúng tôi có thể xuất bản vào tuần tới.

Hàng đầu

Thứ hạng

Yêu thích