Apple FastVLM-7B Codificación de visión eficiente para modelos de lenguaje de visión las variantes más grandes que usan Qwen2-7B LLM superan a trabajos recientes como Cambrian-1-8B mientras usan un codificador de una sola imagen con un TTFT 7.9 veces más rápido Vibe codifica una aplicación de subtítulos de video con ella en anycoder
58.89K