Es ist ziemlich verrückt, dass wir an MLX gearbeitet haben, bevor ChatGPT existierte.
Es fühlt sich an, als wäre es schon so lange her, dass ChatGPT herauskam. Und so kurz, dass wir an MLX bauen. Es ist schwer, die beiden in Einklang zu bringen.
Vier hochrangige OpenCode-Agenten + Subagenten mit mlx_lm.server kontinuierlichem Batching und MiniMax M2.5 (6-Bit) laufen.
Passt problemlos auf einen 512GB M3 Ultra. Die Generierung ist ziemlich schnell. Aber das Prefill ist im Vergleich zu Cloud-Servern immer noch langsam.
Dies sind zwei wichtige Trends in der KI:
- Die Spitzenintelligenz steigt
- Die Intelligenz pro Watt (IPW) steigt
Dank der Vergrößerung des Zählers und der Verkleinerung des Nenners denke ich, dass sich IPW noch schneller verändert.
Ich höre viel Diskussion über den ersten Punkt, aber nicht so viel über den zweiten. Und die Tatsache, dass beide gleichzeitig stattfinden, macht es viel schwieriger vorherzusagen, wie KI in 2-5 Jahren aussehen wird.