Tak powinny wyglądać benchmarki dla większości integracji AI. Celem nie jest zero błędów, ale znacznie mniej błędów niż w systemie tylko z ludźmi. Dobra robota!