Artikkeli "Hierarchical Reasoning Models" on kiertänyt viime aikoina ja kerännyt kymmeniä tuhansia tykkäyksiä Twitterissä kymmenissä puoliviraalisissa ketjuissa, mikä on melko epätavallista tutkimuspaperille. Tutkimus väittää 40,3 %:n tarkkuuden ARC-AGI-1:ssä pienellä mallilla (27 miljoonaa parametria), joka on koulutettu tyhjästä ilman ulkoisia koulutustietoja - jos se on totta, tämä olisi merkittävä päättelyn läpimurto. Tein juuri syväsukelluksen paperiin ja koodikantaan... Se on hyvää luettavaa, yksityiskohtaista mutta helposti seurattavaa. Mielestäni esitetyt ideat ovat varsin mielenkiintoisia ja arkkitehtuuri on todennäköisesti arvokas. Konsepti muistuttaa minua monista erilaisista ajatuksista, joihin törmäsin DL-arkkitehtuurin tutkimuksen "kulta-aikana" noin vuosina 2016-2018. Tämäntyyppinen tutkimus ei ole ollut suosittua vähään aikaan, joten on mukava nähdä uutta kiinnostusta vaihtoehtoisia arkkitehtuureja kohtaan. Kokeellinen asetelma näyttää kuitenkin olevan kriittisesti virheellinen, mikä tarkoittaa, että meillä ei tällä hetkellä ole empiiristä signaalia (ainakaan ARC-AGI:lta) siitä, onko arkkitehtuuri todella hyödyllinen vai ei. ARC-AGI-1-koe tekee seuraavaa, perustuen lukemaani tietojen valmistelukoodista: 1. Harjoittele 876 404 tehtävää, jotka ovat lisäyksen luomia muunnelmia 960 alkuperäisestä tehtävästä: ... 400 alkaen ARC-AGI-1/juna ... 400 alkaen ARC-AGI-1/eval ... 160 alkaen ConceptARC 2. Testaa 400 tehtävää (ARC-AGI-1/eval) lisäämällä jokainen tehtävä ~1000 varianttiin (todellisuudessa se on vain 368 151 yhteensä lisäysprosessin erityispiirteiden vuoksi), tuottamalla ennuste kullekin muunnelmalle ja vähentämällä ennusteet N=2:een enemmistöäänestyksellä. Lyhyesti sanottuna: he harjoittelevat testitietojen avulla. Saatat kysyä, että hetkinen, miksi tarkkuus on sitten 40 % eikä 100 %? Onko malli vakavasti alikuntoinen? Tämä johtuu siitä, että koulutustiedot ja testitiedot edustavat samoja alkuperäisiä tehtäviä *eri muunnelmissa*. Tietojen täydennystä sovelletaan itsenäisesti harjoitusdatan eval-tehtäviin ja testidatan eval-tehtäviin. Joten koe mittaa karkeasti sitä, miten malli onnistuu yleistämään samojen tehtävien proseduraalisesti luotuihin muunnelmiin (eli voiko malli oppia kääntämään kiinteän joukon staattisia ruudukkomuunnoksia). Joten -- älä innostu liikaa vielä. Mutta mielestäni tällainen arkkitehtuuritutkimus on arvokasta (kun siihen liittyy kunnollinen empiirinen validointisignaali) ja että HRM-idea on erittäin mielenkiintoinen....