Apple präsentiert AToken: Ein einheitlicher visueller Tokenizer • Erster Tokenizer, der Bilder, Videos und 3D vereint • Geteilter 4D latenter Raum (bewahrt sowohl Rekonstruktion als auch Semantik) • Stark bei Generierungs- und Verständnisaufgaben (ImageNet 82,2 %, MSRVTT 32,6 %, 3D Genauigkeit 90,9 %)