Planering med resonemang med hjälp av Vision Language World Model