aceste instrumente AI par grozave pentru majoritatea lucrurilor, așa că de ce sunt atât de proaste în singurul domeniu în care sunt capabil să evaluez calitatea?