Apple FastVLM-7B Codificação de visão eficiente para modelos de linguagem de visão variantes maiores usando Qwen2-7B LLM superam trabalhos recentes como Cambrian-1-8B enquanto usam um único codificador de imagem com um TTFT 7,9x mais rápido Vibe Codificando um aplicativo de legenda de vídeo com ele em AnyCoder