ChatGPT kann leicht einen Turing-Test bestehen... aber nur, wenn der Test auf ein 5-minütiges Gespräch beschränkt ist. Je länger das Gespräch dauert, desto mehr Risse beginnen sichtbar zu werden. Deshalb wird die Zukunft der KI-Benchmarks von Trajektorien handeln. 🧵
36