Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Derya Unutmaz, MD
Giáo sư, nhà khoa học y sinh, nhà miễn dịch học con người, liệu pháp miễn dịch lão hóa và ung thư. TẤT CẢ VÀO AI. Sở thích: BioAI, robot, Cờ vua khoa học viễn tưởng không gian. Ý kiến cá nhân
Đây là một tài liệu rất thú vị và, theo tôi, quan trọng. Suy nghĩ theo bối cảnh dài là một đặc điểm cực kỳ quan trọng, theo ý kiến của tôi. Hãy tưởng tượng một mô hình AI có thể suy nghĩ một triệu bước phía trước!
✅Suy nghĩ của GPT-5 vượt xa tất cả các mô hình khác mà chúng tôi đã thử nghiệm. Nó có thể thực hiện các nhiệm vụ hơn 1000 bước trong một lần.
✅Ở vị trí thứ hai với 432 bước là Claude 4 Sonnet... và sau đó là Grok-4 với 384
✅Gemini 2.5 Pro và DeepSeek R1 tụt lại rất xa, chỉ với 120.

Shashwat Goel23:42 12 thg 9
Báo chí mới ra lò: Ảo tưởng về lợi nhuận giảm dần: Đo lường thực hiện dài hạn trong LLMs.
Liệu các mô hình nhỏ có phải là tương lai của AI có khả năng tự hành? Việc mở rộng tính toán LLM có đáng giá không do lợi nhuận giảm dần? Liệu các LLM tự hồi tiếp có bị định mệnh, và suy nghĩ chỉ là ảo tưởng?
Các trường hợp tiêu cực cho việc mở rộng LLM đều liên quan đến một khả năng duy nhất: Thực hiện dài hạn. Tuy nhiên, đó chính là lý do bạn nên lạc quan về việc mở rộng kích thước mô hình và tính toán trong thời gian thử nghiệm!
> Đầu tiên, hãy nhớ đến biểu đồ METR? Nó có thể được giải thích bởi mô hình của @ylecun về lỗi tích lũy
> chiều dài chân trời của một mô hình tăng trưởng siêu số mũ (@DaveShapi) trong độ chính xác từng bước.
> Kết quả 1: Đừng bị lừa bởi sự tiến bộ chậm lại trên các tiêu chuẩn nhiệm vụ ngắn thông thường
> điều đó đủ để tạo ra sự tăng trưởng theo cấp số nhân trong chiều dài chân trời.
Nhưng chúng tôi đi xa hơn mô hình của @ylecun, thử nghiệm LLMs một cách thực nghiệm...
> Chỉ thực hiện cũng khó đối với LLMs, ngay cả khi bạn cung cấp cho chúng kế hoạch và kiến thức cần thiết.
> Chúng ta không nên hiểu sai những thất bại trong thực hiện như là một sự không khả năng "lập luận".
> Ngay cả khi một mô hình nhỏ có độ chính xác từng bước là 100%, các mô hình lớn hơn có thể thực hiện nhiều lượt hơn trên ngưỡng tỷ lệ thành công.
> Có nhận thấy cách mà tác nhân của bạn hoạt động kém hơn khi nhiệm vụ kéo dài không? Đó không chỉ là giới hạn về ngữ cảnh dài..
> Chúng tôi quan sát: Hiệu ứng Tự Điều Kiện!
> Khi các mô hình thấy những lỗi mà chúng đã mắc phải trước đó trong lịch sử của chúng, chúng trở nên có khả năng mắc lỗi nhiều hơn trong các lượt tương lai.
> Tăng kích thước mô hình làm trầm trọng thêm vấn đề này - một trường hợp hiếm hoi của việc mở rộng ngược!
Vậy còn suy nghĩ thì sao...?
> Suy nghĩ không phải là một ảo tưởng. Nó là động cơ cho việc thực hiện!
> Nơi mà ngay cả DeepSeek v3, Kimi K2 cũng không thể thực hiện được 5 lượt một cách tiềm ẩn khi được yêu cầu thực hiện mà không có CoT...
> Với CoT, chúng có thể thực hiện gấp 10 lần.
Vậy còn biên giới thì sao?
> Suy nghĩ của GPT-5 vượt xa tất cả các mô hình khác mà chúng tôi đã thử nghiệm. Nó có thể thực hiện các nhiệm vụ 1000+ bước trong một lần.
> Ở vị trí thứ hai với 432 bước là Claude 4 Sonnet... và sau đó là Grok-4 với 384
> Gemini 2.5 Pro và DeepSeek R1 tụt lại phía sau, chỉ với 120.
> Có phải đó là lý do tại sao GPT-5 được đặt tên mã là Horizon? 🤔
> Mã nguồn mở còn một chặng đường dài ;) để đi!
> Hãy cùng nhau phát triển nó! Chúng tôi phát hành tất cả mã và dữ liệu.
Chúng tôi đã thực hiện một cuộc khảo sát sâu dài, và trình bày cho bạn những điểm nổi bật nhất với những biểu đồ tuyệt vời bên dưới 👇

189
Hàng đầu
Thứ hạng
Yêu thích