Ganske vilt at vi begynte å jobbe med MLX før ChatGPT eksisterte.
Det føles som en evighet siden ChatGPT kom ut. Og så kort tid har vi bygget MLX. Vanskelig å forene de to.
Kjører fire høynivå OpenCode-agenter + underagenter med mlx_lm.server kontinuerlig batching og MiniMax M2.5 (6-bit).
Passer lett på en 512GB M3 Ultra. Genereringen går ganske raskt. Men prefill er fortsatt tregt sammenlignet med skyservere.
Dette er to viktige trender innen KI:
- Toppintelligens øker
- Intelligens per watt (IPW) øker
Takket være at telleren vokste og nevneren ble mindre, tror jeg IPW endrer seg enda raskere.
Jeg hører mye diskusjon om det første, men ikke så mye om det andre. Og det faktum at begge skjer samtidig, gjør det mye vanskeligere å forutsi hvordan AI vil se ut om 2-5 år.