視覚言語世界モデルを用いた推論による計画
20.4K