Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Được rồi, tôi đã làm một số nghiên cứu, và sau tất cả những gì tôi đọc, đây là những gì tôi rút ra:
4o native image gen đầu tiên xuất ra một lưới khổng lồ các token patch tiềm ẩn, sau đó đưa cho một bộ giải mã khuếch tán thực hiện khoảng 25 bước khử nhiễu mỗi băng trước khi hiển thị các pixel kết quả. Sau đó, nó thực hiện một phép gộp patch, nhúng metadata nguồn c2pa, và chạy các bộ lọc an toàn đa phương tiện nặng, mỗi bộ lọc thêm vào vài trăm ms. Cũng vì 4o native image gen thực sự là cùng một instance 4o (không phải là một cuộc gọi công cụ riêng biệt), nó giữ toàn bộ ngữ cảnh trò chuyện trong VRAM trong khi xử lý hàng chục nghìn token hình ảnh, vì vậy GPU đang thực hiện RẤT NHIỀU công việc đa nhiệm.
Trong khi đó, Grok: Aurora là một MoE nhắm đến thông lượng token/giây thô (~1.2k t/s được tuyên bố) và hoàn toàn bỏ qua khuếch tán. Nó phát ra các token hình ảnh rời rạc một cách tự hồi quy trong một lần duy nhất, đưa chúng qua một bộ giải mã VQ nhẹ đến một jpeg 1024x768, thêm một watermark, thực hiện một cuộc quét chính sách nhanh, và gửi hình ảnh. Không có bộ mở rộng, khuếch tán đa băng, không có ngữ cảnh trò chuyện, và một khung hình cho mỗi yêu cầu nên cảm giác gần như ngay lập tức.
Sự đánh đổi là 4o tiêu tốn thêm FLOPs để xử lý văn bản nhỏ, độ trung thực bố cục, và tính nhất quán chỉnh sửa nhiều lượt (được cho là), trong khi Grok được điều chỉnh cho tốc độ để đưa bạn jpeg sớm hơn.

00:59 9 thg 8
Tôi không biết nhiều về việc tạo hình ảnh bằng AI nhưng thấy thú vị cách tiếp cận của GPT mất nhiều thời gian để tạo ra hình ảnh so với cách tiếp cận của Grok chỉ đơn giản là bắn ra một cái gì đó nhanh nhất có thể.


Vâng, tôi đã sử dụng LLM để nghiên cứu, nhưng KHÔNG, tôi không sử dụng một cái để viết điều này.
wow, khi đọc lại điều này, có quá nhiều lỗi chính tả, tôi thật sự nên cảm thấy xấu hổ.
phụ lục: Tôi đã được [đã chỉnh sửa] sửa rằng đối với 4o, nó gần như chắc chắn là một chuỗi 1d KHÔNG phải là một lưới vae truyền thống.
6,46K
Hàng đầu
Thứ hạng
Yêu thích