How to?

稍稍应付某个计算机视觉面试以及反思

Apr 21, 2026
2604
14 Minutes
2672 Words

以后面试一定要问

  • 我入职第一天你们会安排什么?第一周安排什么?第一个月安排什么?
  • 底薪?能否概述绩效评定标准?多久结算一次?
  • 工作时间?地点?人物?事件?
  • 会有什么会议和其他占时间的活动?占多少时间?需要不要写日报、周报月报?
  • 用什么沟通软件?大概会进几个群?小团队有多少人(常合作)?大团队总共有多少人?
  • 自己的技术团队目前常用的工具链介绍?
  • HR 你觉得这个公司相比其他公司,在对员工吸引力和其他公司优势和技术壁垒是?在这方面有什么规划建立更大的优势?
  • 我的上级是谁(对谁负责)?
  • 有多少学习资料?有没有培训?谁在维护?

流程

  1. 专业老师
  2. 排名
  3. 视觉 rm
  4. 当前 robopocket 和 intel 使用经验
  5. 擅长技术
  6. 感兴趣

你好,面试官!我是方俊杰,上海交通大学电子信息专业研一学生,师从卢策吾教授,目前的研究方向是具身智能与计算机视觉。

本科阶段我就读于上海交大信息工程专业,GPA 3.89,专业排名前20%。在计算机视觉和机器人视觉方面,我有丰富的实战经历。大学期间我担 任交大RoboMaster战队视觉部部长,带领团队连续两年获得全国总冠军。在这过程中,我深度参与了基于OpenCV的传统视觉算法开发,包括轮 廓提取、几何约束、图像滤波和特征点匹配;同时手写了C++坐标变换器、EKF滤波器和梯度下降等底层数学库,解决了困扰队伍多年的运动建 模难题。

目前我的研究聚焦于具身智能中的视觉感知与策略学习。在RoboPocket项目中,我利用手机AR实现了机器人策略的在线微调,通过边缘计算和 时空同步技术,让用户无需实体机器人就能实时观察并修正机器人行为。此外,我还有Intel RealSense深度相机的应用经验,开发过视觉引导 的跟随与抓取系统。

我熟练掌握C++和Python,熟悉ROS/ROS2、PyTorch和TensorRT等框架。本科期间我也获得了ICPC银奖、CCPC金奖等算法竞赛荣誉,具备扎实的 算法基础。

我对贵司的计算机视觉方向非常感兴趣,希望能将我的视觉算法能力和机器人经验应用到实际产品中。谢谢!

(在自己性格方面可以多讲点优势)


  1. 请简述经典的特征点检测与描述子(如SIFT, ORB)的原理。它们在视觉SLAM或三维重建中起什么作用?
  • SIFT: 先找?尺度空间关键点,然后关键点邻域的梯度分布生成描述子。适合光照变化
  • ORB: FAST (圆圈16方向) 做角点检测,再用 BRIEF 做二进制描述子
  • 提供观测约束
  1. 什么是相机的内参和外参?如何通过标定获取它们?
  • ok
  1. 立体视觉如何恢复深度信息?其精度受哪些因素影响?
  • 视差。三角测量. 距离,分辨率,标定,同步
  1. 请描述目标检测任务中Two-stage(如Faster R-CNN)和One-stage(如YOLO)方法的区别和各自优势。
  • two stage: 先生成候选框 (?RPN 方法)
  1. 多目标跟踪(MOT)的主要挑战是什么?常见的跟踪框架是怎样的?
  • 身份混乱
  • kalman filter 预测
  1. 为无人机设计一个基于视觉的“跟拍”功能,需要哪些核心的CV算法模块?简述其工作流程。 ◦ 追问:在跟拍过程中,如果目标被短暂遮挡(如经过一棵树),跟踪器应该如何设计才能实现稳定、不跟丢?
  2. 你了解深度学习模型压缩和加速的技术吗?(如剪枝、量化、知识蒸馏)
  • 删小权重 ; 加 L1 让权重变小 ; 门控
  1. 如何构建和清洗一个用于训练无人机视觉任务的数据集?有什么特别需要注意的地方?
  • 统一规范,比如遮挡目标
  • 注意类别太少的,目标小的,图像太接近的
  1. 当CV算法在仿真环境中表现良好,但在真实场景中性能下降时,可能的原因有哪些?如何解决?
  • 纹理,物理,传感器,太完美,多样性,延迟
  1. 你认为在无人机和机器人领域,未来几年计算机视觉最有价值的研究和应用方向是什么?

面试官介绍业务:阿里本地生活,底层通用cv能力团队,赋能下游各个业务方,图像AIGC生成加工,图像理解,多模态,b端给商家做图像工具,生图,c端做图文生成,广告营销图像生成

? YoloV12

  • 加入 attention
  • ? 通常用transformer模型就大了。yolov12如何保持轻量且需要数据集不太大?
    • 没有 VIT,不是全局注意力,用了 Area attention(区域内部 attn)
    • 降低 MLP ratio (in -> hidden -> out 这里的 hidden / in)
    • 使用 flash attn

讲一个比较有亮点的项目

  • RoboPocket

改进有多少是数据带来的,有多少是模型带来的?

  • 都有很多

假如类别数很多的话,还用anchor based方法吗

  • 类别数很多则每个位置 anchor 很多
  • 可以 query based

除了YOLO系列,transformer模型有了解吗?DETR(detection transformer)系列与YOLO系列相比有什么优势?

  • 就是 query based
  • 优势 不需要 anchor & 全局建模 & 一个目标一个预测避免重复框

DINO模型有了解吗?DINO后续也有很多改进?

  • 可视化可以 attention map, k-means, patch 相似度
  • v2 数据集更强
  • v3 数据集更强,加了一个 gram anchoring

除了检测的视觉相关的其它任务你还了解什么?

在做视觉任务时经常用到上采样和下采样,上采样通常用什么来做?插值和转置卷积两种方法有什么差异?有什么经验?插值更快

  • 差值,反卷积
  • 反卷积可学习(卷积核 W),(双线性)插值更平滑,反卷积容易伪影

其它方向有了解吗?如分割,生成,分类

AIGC原理?扩散模型?局部重绘如何实现,过程?

  • 掩码 mask=1
  • 对原图 latent 加噪到某个中间步,开始 conditioned 去噪

backbone熟悉哪些?

  • cnn: efficientnet (更省参数, ?MBConv ?SE 模块)
  • clip, dino, siglip

Transformer 能够直接用encoder去提取特征吗?比如VIT的话还需要结合一个CNN的backbone然后再进行encode-decode这个过程?需要吗?VIT如何结合CNN?为什么要用CNN来提取特征?VIT不用CNN,用patch不就好了?

  • transformer encoder 就是层层 encoder block
  • 用 CNN 的原因是它对局部结构有更强归纳偏置,比如边缘、纹理、角点这类局部模式,CNN 更容易学到(需要数据更少)
  • dec-only 仅用于 lang
1
# encoder-decoder
2
src = embed(ori_tokens) # 原文
3
memory = encoder(src) # 编码原文
4
5
tgt = embed(res_tokens) # 已翻译部分
6
hidden = decoder(tgt, memory) # 看res_tokens + ori_tokens
7
next_token = head(hidden[:, -1]) # 预测下一个翻译token
8
9
# decoder-only(把原文和已翻译内容拼一起)
10
x = concat(
11
[SRC] + ori_tokens + [SEP] + res_tokens
12
)
13
x = embed(x)
14
hidden = decoder(x, causal_mask=True) # 只能看前面
15
next_token = head(hidden[:, -1]) # 预测下一个翻译token

场景题:一盘菜。需要打标,表示菜品本身和容器是否完整的,识别商家的图像主体是否是完整的。可以打标完整和不完整,二分类,也可以打标完整度,比较难标 看看豆包怎么说,可以背一下

工业移动机器人导航整体设计

一、硬件选型

  1. 主控:工业级嵌入式工控板/高性能ARM核心板,抗干扰、宽温运行
  2. 定位感知:16线激光雷达为主传感器,搭配IMU惯性测量单元、工业编码器
  3. 视觉模块:全局快门工业相机+广角镜头,补光环形灯,防尘防水工业防护等级
  4. 执行驱动:直流伺服电机+差分/阿克曼底盘,电磁制动模块
  5. 辅助硬件:超声波避障传感器、工业交换机、UPS稳压电源、紧急停机模块

二、导航整体方案

采用激光SLAM为主、视觉辅助修正、多传感器融合架构,适配工厂货架、人员混行、动态障碍物场景,实现建图、定位、路径规划、避障全流程自主导航。

三、视觉核心算法

  1. 环境感知:视觉图像畸变矫正、ROI区域裁剪、图像增强,提升车间暗光/粉尘环境成像质量
  2. 特征提取与匹配:ORB特征点快速提取匹配,用于场景闭环检测、位姿校正,修正激光漂移
  3. 视觉语义分割:轻量级CNN模型,分割货架、地面标线、行人、叉车等目标,区分可通行/禁行区域
  4. 目标检测与动态避障:轻量化检测算法,实时识别动态人员、临时堆放杂物,预判运动轨迹
  5. 视觉辅助定位:结合AprilTag/二维码视觉地标,实现高精度点位校准,满足工位精准停靠
  6. 多传感器融合:视觉位姿、激光点云、IMU数据卡尔曼滤波融合,提升复杂工况下定位稳定性

四、导航控制逻辑

  1. 离线:激光+视觉联合建图,构建二维栅格地图+语义地图
  2. 在线:实时全局定位,A*算法全局路径规划,Dijkstra局部路径微调
  3. 安全机制:多层避障逻辑(激光远距离、视觉语义、超声波近距),低速绕行+急停联动。

二面问了:

  • 自我介绍
  • 创建个人网站的目的
  • 关于 科研 创业 就业 的看法(你科研的目的是为了研究本身还是为了行业应用)
  • 如果管整个机器人项目(有你不熟悉的部分),你怎么管理
    • 从产品角度考虑(涉及市场、资金、供应链、加工段,需要考虑成本、质量检测、人员安排)
  • 遥操作实习经历介绍项目情况和目的
  • 对特种机器人行业看法
  • 个人的就业规划
  • 对创业的理解
  • 希望在公司做什么,以及从公司获得什么
  • 遇到过什么大压力事件
  • 个人驱动力是什么
Article title:稍稍应付某个计算机视觉面试以及反思
Article author:Julyfun
Release time:Apr 21, 2026
Copyright 2026
Sitemap