O áudio conversacional não é apenas mais dados de voz. Tem uma estrutura completamente diferente: • Alternância de turnos • Falantes sobrepostos • Intervalos de silêncio • Interrupções • Ritmo variável Muitos pipelines de avaliação de ASR foram projetados para áudio limpo de um único falante.