ChatGPT kan gemakkelijk een Turing-test doorstaan... maar alleen als de test beperkt was tot een gesprek van 5 minuten. Hoe langer het gesprek, hoe meer scheuren zichtbaar worden. Daarom zal de toekomst van AI-benchmarks gaan over trajecten. 🧵
39