ChatGPT kan lätt klara ett Turing-test... Men bara om testet var begränsat till ett 5 minuters samtal. Ju längre konversationen pågår, desto fler sprickor börjar visa sig. Det är därför framtiden för AI-benchmarks kommer att handla om banor. 🧵
54