Papers

BaseModel

https://arxiv.org/abs/2602.04770v1 | Mingyang Deng, Kaiming He | 26/2/5

11/26

Generalist: 如夹爪的量程设计和末端尖锐度,黄色更多是柔性材料，黑色是刚性材料

机械臂是带力控 [q]

11/25

AINA [ok]

General

CoRL: (conf on robot learning)

Conf: ~11/6 [papers]
DexUMI (2025 Best FL)
UMI-on-Legs (2024 X-Embodiment Workshop CoRL)

IROS:

DDL: 1/5 - 3/2,
Accept: 6/30
Conf: [papers]
Improved-3D-Diffusion-Policy (2025) @Yanjie Ze

RSS:

DDL: 1/24
Rebuttal: 3/24
Accept: 4/10
Conf: 6/21 [papers]
UMI

Deprecated for Zotero

CV

ICLR:

. [papers]
DuoAttention

IEEE:

VLA

Stereo VLA @shengliang deng @he wang @25/12/26

双目视觉输入，用 Foundation Stereo + 左目 DINO + SigLIP

Evo-1 @赵波的 @25/11

new from OXE: 预训练 + finetune
OXE 并没有预训练 - 后训练.

@25/04

相比 pi0 主打场景泛化 “entirely new environments” “generalize to new settings”
Co-training: train on different data sources
- “requires the right mixture of co-training tasks”

@25/06

blog: https://blog.csdn.net/v_JULY_v/article/details/154989166
[不同之处.stage-pretain]
VLA{VLM+FM}: img,lang,It(二值化优势指示符) => action(好/坏)
ValueModel: 预测成功还需要多少步
然后特定任务few-shot SFT
[不同之处.stage-exp]
即使rollout成功，也可以用 vm 判断是优势还是劣势.
vm 也会更新.

VLA-RL

In-Context @Jason Ma

https://www.alphaxiv.org/abs/2411.04549
就是不用权重而是用 kv_cache 来学习新任务（任务例如判断视频进度）

Dataset

RoboCoin 25/11 @北京智源

[abs] [q] 如何证明 RTML 独立提点?
- [q] 异构性如何解决？
- [q] 数据后处理和验证 ?
- [q] 采了多久? RoboMind 25/11

Gen0 25/11/4 https://generalistai.com/blog/nov-04-2025-GEN-0

27000h 数据, 10B+ VLA
7B VLA 不会 ossification 僵化，而 LLM 通常是 O(10M)
这个 blog 里有 in-the-wild 都有复杂背景
似乎有一套自己的 inference 代码
预训练技巧: 高 pred error 和反向 KL 适合 RL

RoboCoin 24/12

Data Generation

DemoGen: 24/10 @THU AI Lab @Zhengrong Xue @Shuying Deng @Huazhe Xu

RSS & CVPR
给一条演示数据，只编辑点云，不仿真不生成图像
分解为运动段和技能段
运动短重新规划
技能段的 contact-rich 得到保留（没怎么变）

Hardware

UmiGEN: @Yan Huang, @Wenbo Ding

Hardware: L515 深度 + T265 定位 (L515 提供1280x720Depth,无法提供6dof)
主要贡献: 第一视角 DemoGen | Gen train 时 Crop 视觉范围内点云，以免 inference OOD

UMI

DAgger

SOP 26/1/7 @jianlan luo

[site] post-training problem:
- shift, speed, degeneralize
- online, multirobot, mutlitask Compliant Residual DAgger @mengda xu @yifan hou
[abs]: [q] update policies with new data?
- [q] without interrupting the ongoing?
- [q] provide practical guidance?
- [note] base + 动作残差 policy

[crdagger] Compliant Residual DAgger @mengda xu @yifan hou

[re] 冻结 base，训的是 residual，residual 50hz输出 delta pose 和 target force (target force 使用 admittance controller 施加)
[idea] replay buffer 对 intervention data 的采样频率更高.
[abs]:
- [q] admittance control? [a] 虚拟弹簧

[todo] ARMADA

[todo] Genie Centurion @智元 25/5

Data-Efficient Multitask DAgger 25/9

https://arxiv.org/pdf/2509.25466
@罗得岛州布朗大学 @60 @Haotian Fu @cited 0
TN: 成功率较低的任务会获得更高的优先级分数 (kalman filter 成功率)
PG: 跟踪最近一次训练更新期间模仿损失的减少来衡量学习动量: PG =
- 其实就是比较加入这组 dagger 前后的 loss
bench: 居然用的是仿真 (MetaWorld(Mujoco) & ISAAC Lab)

[ok] Diff-DAgger: @24/10 U Vir 弗吉尼亚 @275, @Sung-Wook Lee @cited 12

[re] 推理时用 diffusion loss 判定机器人不确定(OOD) 并请求帮助
推理阶段，用 *loss 预测错误并且 ask for human help
- LOSS: 给定 diffusion 时间步 t, LOSS = ||生成噪声 - 预测噪声||^2
- DP 高损失值表示当前状态-动作对与训练分布显著不同
- 通过允许机器人高度不确定时向专家寻求帮助来解决这个问题
- ref: Ensemble-DAgger, ThriftyDAgger
  - Ensemble-DAgger: 训练多个策略并使用动作方差作为不确定性度量。然而，这种方法在多模态策略中会失效，因为在给定状态下存在多个有效动作

ThriftyDAgger UCB

训练 Q 函数估算当前策略下任务成功收敛的概率以界定风险状态

HGDAgger (human gated) 18/10 [自动驾驶]

专家认为进入不安全状态，就完全控制(注意不录制混合控制)，引导回安全状态就交还控制权.
计算一个多个 policy 输出的方差，作为不确定度，用最近的不确定度计算安全阈值，用于后续推理自主请求介入

[todo]:

《Soft DAgger: Sample-Efficient Imitation Learning for Control of Soft Robots》
- 发布背景：2023年发表于《Sensors》，是针对柔性机器人操作控制的开创性DAgger研究。柔性机器人因变形特性难以建模，传统控制方法依赖昂贵的探索技术或强化学习代理，实用性差。
- 核心创新：提出Soft DAgger算法，构建动态行为映射，将机器人任务空间与驱动空间关联，该映射可基于机器人历史状态、专家演示和当前位置预测最优动作。设计了两种算法变体，无需依赖高成本探索即可实现泛化。
- 实验成果：在双模块柔性机械臂的3D字母书写任务中验证，该算法不仅提升了任务复现精度和泛化能力，还持续缩短了优化时间、减少了所需样本量，为柔性机器人的复杂操作控制提供了实用方案。
《LazyDAgger: Reducing Context Switching in Interactive Imitation Learning》
- 发布背景：2023年提出，针对传统交互式DAgger中人类监督者频繁干预机器人导致的上下文切换成本高、效率低的问题，尤其适配布料等需要连续操作的机器人任务。
- 核心创新：在Safe DAgger基础上优化，提出减少监督者与机器人自主控制间上下文切换的机制。通过合理延迟和规划干预时机，在不影响策略性能的前提下降低干预频率。
- 实验成果：在3个连续控制仿真任务中，相比Safe DAgger平均减少60%的上下文切换；在ABB YuMi机器人的布料操作实验中，不仅保持了同样的上下文切换减少比例，还使任务成功率提升60%。

力控

ACP Adaptive Compliance Policy @Standford YifanHou ZeyiLiu Chengchi

[q] Virtual target 是干啥用的？是 observation 还是 action? 在采集数据过程中如何采集 virtual target？
[a] 是采完以后用时间窗口算的. (virtual - ref) * K刚度 = F力