Siamo stati in grado di riprodurre i forti risultati del documento HRM su ARC-AGI-1. Inoltre, abbiamo condotto una serie di esperimenti di ablation per capire cosa ci sia dietro. Risultati chiave: 1. L'architettura del modello HRM stessa (il fulcro del documento) non è un fattore importante. 2. Il ciclo di raffinamento esterno (appena menzionato nel documento) è il principale motore delle prestazioni. 3. L'apprendimento trasferito tra compiti non è molto utile. Ciò che conta è l'addestramento sui compiti su cui verrà testato. 4. Puoi utilizzare molte meno augmentazioni dei dati, specialmente durante il tempo di inferenza. I risultati 2 e 3 significano che questo approccio è un caso di *zero-pretraining test-time training*, simile al recente documento pubblicato "ARC-AGI senza pretraining" di Liao et al.
315,36K