🚨 Apple właśnie wydało FastVLM na Hugging Face - 0.5, 1.5 i 7B VLM-y w czasie rzeczywistym z obsługą WebGPU 🤯
> 85x szybsze i 3.4x mniejsze niż porównywalne VLM-y
> 7.9x szybszy TTFT dla większych modeli
> zaprojektowane, aby generować mniej tokenów wyjściowych i skrócić czas kodowania dla obrazów o wysokiej rozdzielczości
Bonus: działa w CZASIE RZECZYWISTYM bezpośrednio w twojej przeglądarce zasilane przez transformers.js i WebGPU 🔥
Wypróbuj to w demo poniżej 👇
🚨 Apple właśnie wydało FastVLM na Hugging Face - 0.5, 1.5 i 7B VLM-y w czasie rzeczywistym z obsługą WebGPU 🤯
> 85x szybsze i 3.4x mniejsze niż porównywalne VLM-y
> 7.9x szybszy TTFT dla większych modeli
> zaprojektowane, aby generować mniej tokenów wyjściowych i skrócić czas kodowania dla obrazów o wysokiej rozdzielczości
Bonus: działa w CZASIE RZECZYWISTYM bezpośrednio w twojej przeglądarce zasilane przez transformers.js i WebGPU 🔥
Wypróbuj to w demo poniżej 👇
NOWOŚĆ: Apple wydaje FastVLM i MobileCLIP2 na Hugging Face! 🤗
Modele są do 85 razy szybsze i 3,4 razy mniejsze niż wcześniejsze prace, co umożliwia aplikacje VLM w czasie rzeczywistym! 🤯
Może nawet robić napisy do wideo na żywo w 100% lokalnie w twojej przeglądarce (zero instalacji). Ogromne znaczenie dla dostępności!