Apple FastVLM-7B Effiziente Vision-Encoding für Vision-Sprachmodelle Größere Varianten, die das Qwen2-7B LLM verwenden, übertreffen aktuelle Arbeiten wie Cambrian-1-8B, während sie einen einzelnen Bildencoder mit 7,9x schnellerem TTFT verwenden. Vibe-Codierung einer Video-Untertitelungs-App damit in Anycoder.