ChatGPT kan enkelt bestå en Turing-test... men bare hvis testen var begrenset til en 5 minutters samtale. Jo lengre samtalen er, jo flere sprekker begynner å vises. Det er derfor fremtiden til AI-benchmarks vil handle om baner. 🧵
19