We konden de sterke bevindingen van het HRM-papier over ARC-AGI-1 reproduceren. Verder hebben we een reeks ablatie-experimenten uitgevoerd om te achterhalen wat erachter zit. Belangrijkste bevindingen: 1. De HRM-modelarchitectuur zelf (het middelpunt van het papier) is geen belangrijke factor. 2. De externe verfijningslus (bijna niet genoemd in het papier) is de belangrijkste drijfveer van de prestaties. 3. Cross-task transfer learning is niet erg nuttig. Wat telt, is trainen op de taken waarop je gaat testen. 4. Je kunt veel minder data-augmentaties gebruiken, vooral tijdens de inferentietijd. Bevinding 2 & 3 betekenen dat deze aanpak een geval is van *zero-pretraining test-time training*, vergelijkbaar met het recent gepubliceerde "ARC-AGI zonder pretraining"-papier van Liao et al.
326,22K