Ganska galet att vi började arbeta med MLX innan ChatGPT fanns.
Det känns som att det var så länge sedan som ChatGPT kom ut. Och så kort tid har vi byggt MLX. Svårt att förena de två.
Kör fyra högnivå OpenCode-agenter + subagenter med mlx_lm.server kontinuerlig batchning och MiniMax M2.5 (6-bitars).
Passar lätt på en 512GB M3 Ultra. Genereringen går ganska snabbt. Men prefill är fortfarande långsamt jämfört med molnservrar.
Detta är två viktiga trender inom AI:
- Toppintelligens ökar
- Intelligens per watt (IPW) ökar
Tack vare att träknaren har ökat och nämnaren krympt tror jag att IPW förändras ännu snabbare.
Jag hör mycket diskussion om det första, men inte lika mycket om det andra. Och det faktum att båda händer samtidigt gör det mycket svårare att förutsäga hur AI kommer att se ut om 2–5 år.