Мы открываем исходный код BrowseComp («Конкурс просмотров») — новый сложный бенчмарк, предназначенный для проверки того, насколько хорошо агенты ИИ могут просматривать веб-страницы в поисках труднодоступной информации. Это похоже на онлайн-охоту за мусором... но и для агентов просмотра.
920,77K