Apple esittelee ATokenin: Yhtenäinen visuaalinen tokenisaattori • Ensimmäinen tokenisointi, joka yhdistää kuvat, videot ja 3D:n • Jaettu 4D-piilevä tila (säilyttää sekä rekonstruktion että semantiikan) • Vahva kaikissa generointi- ja ymmärrystehtävissä (ImageNet 82,2 %, MSRVTT 32,6 %, 3D acc 90,9 %)