稍稍应付某个计算机视觉面试以及反思

以后面试一定要问

我入职第一天你们会安排什么？第一周安排什么？第一个月安排什么?
底薪？能否概述绩效评定标准？多久结算一次？
工作时间？地点？人物？事件？
会有什么会议和其他占时间的活动？占多少时间？需要不要写日报、周报月报？
用什么沟通软件？大概会进几个群？小团队有多少人（常合作）？大团队总共有多少人？
自己的技术团队目前常用的工具链介绍？
HR 你觉得这个公司相比其他公司，在对员工吸引力和其他公司优势和技术壁垒是？在这方面有什么规划建立更大的优势？
我的上级是谁（对谁负责）？
有多少学习资料？有没有培训？谁在维护？

流程

专业老师
排名
视觉 rm
当前 robopocket 和 intel 使用经验
擅长技术
感兴趣

你好，面试官！我是方俊杰，上海交通大学电子信息专业研一学生，师从卢策吾教授，目前的研究方向是具身智能与计算机视觉。

本科阶段我就读于上海交大信息工程专业，GPA 3.89，专业排名前20%。在计算机视觉和机器人视觉方面，我有丰富的实战经历。大学期间我担任交大RoboMaster战队视觉部部长，带领团队连续两年获得全国总冠军。在这过程中，我深度参与了基于OpenCV的传统视觉算法开发，包括轮廓提取、几何约束、图像滤波和特征点匹配；同时手写了C++坐标变换器、EKF滤波器和梯度下降等底层数学库，解决了困扰队伍多年的运动建模难题。

目前我的研究聚焦于具身智能中的视觉感知与策略学习。在RoboPocket项目中，我利用手机AR实现了机器人策略的在线微调，通过边缘计算和时空同步技术，让用户无需实体机器人就能实时观察并修正机器人行为。此外，我还有Intel RealSense深度相机的应用经验，开发过视觉引导的跟随与抓取系统。

我熟练掌握C++和Python，熟悉ROS/ROS2、PyTorch和TensorRT等框架。本科期间我也获得了ICPC银奖、CCPC金奖等算法竞赛荣誉，具备扎实的算法基础。

我对贵司的计算机视觉方向非常感兴趣，希望能将我的视觉算法能力和机器人经验应用到实际产品中。谢谢！

（在自己性格方面可以多讲点优势）

请简述经典的特征点检测与描述子（如SIFT, ORB）的原理。它们在视觉SLAM或三维重建中起什么作用？

SIFT: 先找?尺度空间关键点，然后关键点邻域的梯度分布生成描述子。适合光照变化
ORB: FAST （圆圈16方向）做角点检测，再用 BRIEF 做二进制描述子
提供观测约束

什么是相机的内参和外参？如何通过标定获取它们？

立体视觉如何恢复深度信息？其精度受哪些因素影响？

视差。三角测量. 距离，分辨率，标定，同步

请描述目标检测任务中Two-stage（如Faster R-CNN）和One-stage（如YOLO）方法的区别和各自优势。

two stage: 先生成候选框 (?RPN 方法)

多目标跟踪（MOT）的主要挑战是什么？常见的跟踪框架是怎样的？

身份混乱
kalman filter 预测

为无人机设计一个基于视觉的“跟拍”功能，需要哪些核心的CV算法模块？简述其工作流程。 ◦ 追问：在跟拍过程中，如果目标被短暂遮挡（如经过一棵树），跟踪器应该如何设计才能实现稳定、不跟丢？
你了解深度学习模型压缩和加速的技术吗？（如剪枝、量化、知识蒸馏）

删小权重；加 L1 让权重变小 ; 门控

如何构建和清洗一个用于训练无人机视觉任务的数据集？有什么特别需要注意的地方？

统一规范，比如遮挡目标
注意类别太少的，目标小的，图像太接近的

当CV算法在仿真环境中表现良好，但在真实场景中性能下降时，可能的原因有哪些？如何解决？

纹理，物理，传感器，太完美，多样性，延迟

你认为在无人机和机器人领域，未来几年计算机视觉最有价值的研究和应用方向是什么？

面试官介绍业务：阿里本地生活，底层通用cv能力团队，赋能下游各个业务方，图像AIGC生成加工，图像理解，多模态，b端给商家做图像工具，生图，c端做图文生成，广告营销图像生成

? YoloV12

加入 attention
? 通常用transformer模型就大了。yolov12如何保持轻量且需要数据集不太大？
- 没有 VIT，不是全局注意力，用了 Area attention（区域内部 attn）
- 降低 MLP ratio (in -> hidden -> out 这里的 hidden / in)
- 使用 flash attn

讲一个比较有亮点的项目

RoboPocket

改进有多少是数据带来的，有多少是模型带来的？

都有很多

假如类别数很多的话，还用anchor based方法吗

类别数很多则每个位置 anchor 很多
可以 query based

除了YOLO系列，transformer模型有了解吗？DETR(detection transformer)系列与YOLO系列相比有什么优势？

就是 query based
优势不需要 anchor & 全局建模 & 一个目标一个预测避免重复框

DINO模型有了解吗？DINO后续也有很多改进？

可视化可以 attention map, k-means, patch 相似度
v2 数据集更强
v3 数据集更强，加了一个 gram anchoring

除了检测的视觉相关的其它任务你还了解什么？

在做视觉任务时经常用到上采样和下采样，上采样通常用什么来做？插值和转置卷积两种方法有什么差异？有什么经验？插值更快

差值，反卷积
反卷积可学习（卷积核 W），（双线性）插值更平滑，反卷积容易伪影

其它方向有了解吗？如分割，生成，分类

AIGC原理？扩散模型？局部重绘如何实现，过程？

掩码 mask=1
对原图 latent 加噪到某个中间步，开始 conditioned 去噪

backbone熟悉哪些？

cnn: efficientnet (更省参数, ?MBConv ?SE 模块）
clip, dino, siglip

Transformer 能够直接用encoder去提取特征吗？比如VIT的话还需要结合一个CNN的backbone然后再进行encode-decode这个过程？需要吗？VIT如何结合CNN？为什么要用CNN来提取特征？VIT不用CNN，用patch不就好了？

transformer encoder 就是层层 encoder block
用 CNN 的原因是它对局部结构有更强归纳偏置，比如边缘、纹理、角点这类局部模式，CNN 更容易学到（需要数据更少）
dec-only 仅用于 lang

1
# encoder-decoder
2
src = embed(ori_tokens)                  # 原文
3
memory = encoder(src)                    # 编码原文
4

5
tgt = embed(res_tokens)                  # 已翻译部分
6
hidden = decoder(tgt, memory)            # 看res_tokens + ori_tokens
7
next_token = head(hidden[:, -1])         # 预测下一个翻译token
8

9
# decoder-only（把原文和已翻译内容拼一起）
10
x = concat(
11
    [SRC] + ori_tokens + [SEP] + res_tokens
12
)
13
x = embed(x)
14
hidden = decoder(x, causal_mask=True)    # 只能看前面
15
next_token = head(hidden[:, -1])         # 预测下一个翻译token

场景题：一盘菜。需要打标，表示菜品本身和容器是否完整的，识别商家的图像主体是否是完整的。可以打标完整和不完整，二分类，也可以打标完整度，比较难标看看豆包怎么说，可以背一下

工业移动机器人导航整体设计

一、硬件选型

主控：工业级嵌入式工控板/高性能ARM核心板，抗干扰、宽温运行

定位感知：16线激光雷达为主传感器，搭配IMU惯性测量单元、工业编码器

视觉模块：全局快门工业相机+广角镜头，补光环形灯，防尘防水工业防护等级

执行驱动：直流伺服电机+差分/阿克曼底盘，电磁制动模块

辅助硬件：超声波避障传感器、工业交换机、UPS稳压电源、紧急停机模块

二、导航整体方案

采用激光SLAM为主、视觉辅助修正、多传感器融合架构，适配工厂货架、人员混行、动态障碍物场景，实现建图、定位、路径规划、避障全流程自主导航。

三、视觉核心算法

环境感知：视觉图像畸变矫正、ROI区域裁剪、图像增强，提升车间暗光/粉尘环境成像质量

特征提取与匹配：ORB特征点快速提取匹配，用于场景闭环检测、位姿校正，修正激光漂移

视觉语义分割：轻量级CNN模型，分割货架、地面标线、行人、叉车等目标，区分可通行/禁行区域

目标检测与动态避障：轻量化检测算法，实时识别动态人员、临时堆放杂物，预判运动轨迹

视觉辅助定位：结合AprilTag/二维码视觉地标，实现高精度点位校准，满足工位精准停靠

多传感器融合：视觉位姿、激光点云、IMU数据卡尔曼滤波融合，提升复杂工况下定位稳定性

四、导航控制逻辑

离线：激光+视觉联合建图，构建二维栅格地图+语义地图

在线：实时全局定位，A*算法全局路径规划，Dijkstra局部路径微调

安全机制：多层避障逻辑（激光远距离、视觉语义、超声波近距），低速绕行+急停联动。

二面问了:

自我介绍
创建个人网站的目的
关于科研创业就业的看法（你科研的目的是为了研究本身还是为了行业应用）
如果管整个机器人项目（有你不熟悉的部分），你怎么管理
- 从产品角度考虑（涉及市场、资金、供应链、加工段，需要考虑成本、质量检测、人员安排）
遥操作实习经历介绍项目情况和目的
对特种机器人行业看法
个人的就业规划
对创业的理解
希望在公司做什么，以及从公司获得什么
遇到过什么大压力事件
个人驱动力是什么