Apple presenterer AToken: En enhetlig visuell tokenisering • Første tokenizer som forener bilder, videoer og 3D • Delt 4D latent rom (bevarer både rekonstruksjon og semantikk) • Sterk på tvers av generasjons- og forståelsesoppgaver (ImageNet 82,2 %, MSRVTT 32,6 %, 3D acc 90,9 %)