O ChatGPT pode facilmente passar um teste de Turing... mas apenas se o teste for limitado a uma conversa de 5 minutos. Quanto mais longa a conversa, mais falhas começam a aparecer. É por isso que o futuro dos benchmarks de IA será sobre trajetórias. 🧵
20