Cuối cùng tôi cũng đã tạo ra một công cụ để so sánh các kết quả từ các mô hình được đào tạo bằng SFT và RLHF. Đây là một trang mini cho cuốn sách RLHF mà tôi đã muốn có từ lâu. rlhfbook dot com slash library Luôn luôn khó để nói RLHF ảnh hưởng đến một mô hình như thế nào trong một quy trình sau đào tạo phức tạp hơn. Những khác biệt rất tinh tế ngoài việc bổ sung rõ ràng về định dạng markdown tốt hơn. Phần tinh tế này là một chút viết tốt hơn, một chút cấu trúc nội dung tốt hơn, và thường là nhiều màu sắc hơn trong văn phong. Đến hôm nay, vẫn có rất ít mô hình khác ngoài những mô hình mà chúng tôi đã xây dựng trong vài năm qua tại Ai2 để làm điều này (cảm ơn @huggingface vì đã phát hành nhiều điểm kiểm tra trung gian hơn). Tôi đã tạo ra 3 kết quả cho mỗi 16 lời nhắc trên 18 mô hình (9 cặp mô hình SFT <-> RLHF'd) để cho thấy sự khác biệt trước và sau. Hy vọng đây sẽ là một tài nguyên tuyệt vời cho các học giả và những người đang học để có được cảm nhận cơ bản về cách các kỹ thuật đào tạo khác nhau thực sự thay đổi mô hình. Tôi rất vui được phát triển điều này thêm khi có phản hồi!