Video Language Planning
[Gemini 3.1 Pro] 提出结合 VLM 和文本到视频模型进行树搜索的 VLP 算法来实现长视距机器人视觉动作规划 | MIT,Yilun Du,Yilun Du https://video-language-planning.github.io/ | https://hjfy.top/arxiv/2310.10625 | https://www.alphaxiv.org/abs/2310.10625 | https://github.com/video-language-planning/vlp_code |-|-|-|-|-|
VLP 通过前向树搜索结合两种模型,先由 VLM 生成候选动作的文本指令并利用视频模型预测对应的执行短视频,最后再由 VLM 充当启发式函数来评估以找出最优的长视距视觉执行计划。 纯视觉生成和启发式评估缺乏显式的物理约束,生成的计划偶尔会出现物体瞬移或消失等物理不一致错误。