Hệ thống không có mục tiêu, chúng có hành vi. Đôi khi chúng ta có thể mô hình hóa chúng một cách có lợi như thể chúng có mục tiêu, và sau đó gọi các hệ thống đó là tác nhân. Đôi khi chúng ta có thể mô hình hóa các tác nhân một cách có lợi như thể chúng có một mô hình về các mục tiêu của chính mình và sử dụng mô hình đó để điều khiển hành vi của chúng. Giả sử một tác nhân là một người học tối ưu, nó sẽ cập nhật mô hình về các mục tiêu của chính nó theo thời gian dựa trên việc quan sát hành vi của chính nó. Theo nghĩa này, mỗi tác nhân đều phải lựa chọn: hành vi học tập tối ưu, hay mục tiêu ổn định. Nói cách khác, cũng giống như mỗi tác nhân đều có một mục tiêu công cụ nghiêm ngặt về sự kiên trì, với nỗi đau của việc không kiên trì, mỗi tác nhân đều có một mục tiêu meta công cụ nghiêm ngặt về việc sửa đổi mô hình tự thân của nó để phù hợp với hành vi quan sát được, với nỗi đau của sự không nhất quán.