Apple が AToken を発表: 統合ビジュアル トークナイザー • 画像、ビデオ、3D を統合する最初のトークナイザー • 共有 4D 潜在空間 (再構成とセマンティクスの両方を保持) • 生成タスクと理解タスク全体で強力 (ImageNet 82.2%、MSRVTT 32.6%、3D acc 90.9%)