Apple FastVLM-7B Encodage Visuel Efficace pour les Modèles de Langage Visuel des variantes plus grandes utilisant le LLM Qwen2-7B surpassent les travaux récents comme Cambrian-1-8B tout en utilisant un seul encodeur d'image avec un TTFT 7,9x plus rapide coder une application de sous-titrage vidéo avec cela dans anycoder