How to?

papers batch 0

Jun 28, 2026
papers
1 Minutes
172 Words

Video Language Planning

[Gemini 3.1 Pro] 提出结合 VLM 和文本到视频模型进行树搜索的 VLP 算法来实现长视距机器人视觉动作规划 | MIT,Yilun Du,Yilun Du https://video-language-planning.github.io/ | https://hjfy.top/arxiv/2310.10625 | https://www.alphaxiv.org/abs/2310.10625 | https://github.com/video-language-planning/vlp_code |-|-|-|-|-|

VLP 通过前向树搜索结合两种模型,先由 VLM 生成候选动作的文本指令并利用视频模型预测对应的执行短视频,最后再由 VLM 充当启发式函数来评估以找出最优的长视距视觉执行计划。 纯视觉生成和启发式评估缺乏显式的物理约束,生成的计划偶尔会出现物体瞬移或消失等物理不一致错误。

Article title:papers batch 0
Article author:Julyfun
Release time:Jun 28, 2026
Copyright 2026
Sitemap