以后面试一定要问
- 我入职第一天你们会安排什么?第一周安排什么?第一个月安排什么?
- 底薪?能否概述绩效评定标准?多久结算一次?
- 工作时间?地点?人物?事件?
- 会有什么会议和其他占时间的活动?占多少时间?需要不要写日报、周报月报?
- 用什么沟通软件?大概会进几个群?小团队有多少人(常合作)?大团队总共有多少人?
- 自己的技术团队目前常用的工具链介绍?
- HR 你觉得这个公司相比其他公司,在对员工吸引力和其他公司优势和技术壁垒是?在这方面有什么规划建立更大的优势?
- 我的上级是谁(对谁负责)?
- 有多少学习资料?有没有培训?谁在维护?
流程
- 专业老师
- 排名
- 视觉 rm
- 当前 robopocket 和 intel 使用经验
- 擅长技术
- 感兴趣
你好,面试官!我是方俊杰,上海交通大学电子信息专业研一学生,师从卢策吾教授,目前的研究方向是具身智能与计算机视觉。
本科阶段我就读于上海交大信息工程专业,GPA 3.89,专业排名前20%。在计算机视觉和机器人视觉方面,我有丰富的实战经历。大学期间我担 任交大RoboMaster战队视觉部部长,带领团队连续两年获得全国总冠军。在这过程中,我深度参与了基于OpenCV的传统视觉算法开发,包括轮 廓提取、几何约束、图像滤波和特征点匹配;同时手写了C++坐标变换器、EKF滤波器和梯度下降等底层数学库,解决了困扰队伍多年的运动建 模难题。
目前我的研究聚焦于具身智能中的视觉感知与策略学习。在RoboPocket项目中,我利用手机AR实现了机器人策略的在线微调,通过边缘计算和 时空同步技术,让用户无需实体机器人就能实时观察并修正机器人行为。此外,我还有Intel RealSense深度相机的应用经验,开发过视觉引导 的跟随与抓取系统。
我熟练掌握C++和Python,熟悉ROS/ROS2、PyTorch和TensorRT等框架。本科期间我也获得了ICPC银奖、CCPC金奖等算法竞赛荣誉,具备扎实的 算法基础。
我对贵司的计算机视觉方向非常感兴趣,希望能将我的视觉算法能力和机器人经验应用到实际产品中。谢谢!
(在自己性格方面可以多讲点优势)
- 请简述经典的特征点检测与描述子(如SIFT, ORB)的原理。它们在视觉SLAM或三维重建中起什么作用?
- SIFT: 先找?尺度空间关键点,然后关键点邻域的梯度分布生成描述子。适合光照变化
- ORB: FAST (圆圈16方向) 做角点检测,再用 BRIEF 做二进制描述子
- 提供观测约束
- 什么是相机的内参和外参?如何通过标定获取它们?
- ok
- 立体视觉如何恢复深度信息?其精度受哪些因素影响?
- 视差。三角测量. 距离,分辨率,标定,同步
- 请描述目标检测任务中Two-stage(如Faster R-CNN)和One-stage(如YOLO)方法的区别和各自优势。
- two stage: 先生成候选框 (?RPN 方法)
- 多目标跟踪(MOT)的主要挑战是什么?常见的跟踪框架是怎样的?
- 身份混乱
- kalman filter 预测
- 为无人机设计一个基于视觉的“跟拍”功能,需要哪些核心的CV算法模块?简述其工作流程。 ◦ 追问:在跟拍过程中,如果目标被短暂遮挡(如经过一棵树),跟踪器应该如何设计才能实现稳定、不跟丢?
- 你了解深度学习模型压缩和加速的技术吗?(如剪枝、量化、知识蒸馏)
- 删小权重 ; 加 L1 让权重变小 ; 门控
- 如何构建和清洗一个用于训练无人机视觉任务的数据集?有什么特别需要注意的地方?
- 统一规范,比如遮挡目标
- 注意类别太少的,目标小的,图像太接近的
- 当CV算法在仿真环境中表现良好,但在真实场景中性能下降时,可能的原因有哪些?如何解决?
- 纹理,物理,传感器,太完美,多样性,延迟
- 你认为在无人机和机器人领域,未来几年计算机视觉最有价值的研究和应用方向是什么?
面试官介绍业务:阿里本地生活,底层通用cv能力团队,赋能下游各个业务方,图像AIGC生成加工,图像理解,多模态,b端给商家做图像工具,生图,c端做图文生成,广告营销图像生成
? YoloV12
- 加入 attention
- ? 通常用transformer模型就大了。yolov12如何保持轻量且需要数据集不太大?
- 没有 VIT,不是全局注意力,用了 Area attention(区域内部 attn)
- 降低 MLP ratio (in -> hidden -> out 这里的 hidden / in)
- 使用 flash attn
讲一个比较有亮点的项目
- RoboPocket
改进有多少是数据带来的,有多少是模型带来的?
- 都有很多
假如类别数很多的话,还用anchor based方法吗
- 类别数很多则每个位置 anchor 很多
- 可以 query based
除了YOLO系列,transformer模型有了解吗?DETR(detection transformer)系列与YOLO系列相比有什么优势?
- 就是 query based
- 优势 不需要 anchor & 全局建模 & 一个目标一个预测避免重复框
DINO模型有了解吗?DINO后续也有很多改进?
- 可视化可以 attention map, k-means, patch 相似度
- v2 数据集更强
- v3 数据集更强,加了一个 gram anchoring
除了检测的视觉相关的其它任务你还了解什么?
在做视觉任务时经常用到上采样和下采样,上采样通常用什么来做?插值和转置卷积两种方法有什么差异?有什么经验?插值更快
- 差值,反卷积
- 反卷积可学习(卷积核 W),(双线性)插值更平滑,反卷积容易伪影
其它方向有了解吗?如分割,生成,分类
AIGC原理?扩散模型?局部重绘如何实现,过程?
- 掩码 mask=1
- 对原图 latent 加噪到某个中间步,开始 conditioned 去噪
backbone熟悉哪些?
- cnn: efficientnet (更省参数, ?MBConv ?SE 模块)
- clip, dino, siglip
Transformer 能够直接用encoder去提取特征吗?比如VIT的话还需要结合一个CNN的backbone然后再进行encode-decode这个过程?需要吗?VIT如何结合CNN?为什么要用CNN来提取特征?VIT不用CNN,用patch不就好了?
- transformer encoder 就是层层 encoder block
- 用 CNN 的原因是它对局部结构有更强归纳偏置,比如边缘、纹理、角点这类局部模式,CNN 更容易学到(需要数据更少)
- dec-only 仅用于 lang
1# encoder-decoder2src = embed(ori_tokens) # 原文3memory = encoder(src) # 编码原文4
5tgt = embed(res_tokens) # 已翻译部分6hidden = decoder(tgt, memory) # 看res_tokens + ori_tokens7next_token = head(hidden[:, -1]) # 预测下一个翻译token8
9# decoder-only(把原文和已翻译内容拼一起)10x = concat(11 [SRC] + ori_tokens + [SEP] + res_tokens12)13x = embed(x)14hidden = decoder(x, causal_mask=True) # 只能看前面15next_token = head(hidden[:, -1]) # 预测下一个翻译token场景题:一盘菜。需要打标,表示菜品本身和容器是否完整的,识别商家的图像主体是否是完整的。可以打标完整和不完整,二分类,也可以打标完整度,比较难标 看看豆包怎么说,可以背一下
工业移动机器人导航整体设计
一、硬件选型
- 主控:工业级嵌入式工控板/高性能ARM核心板,抗干扰、宽温运行
- 定位感知:16线激光雷达为主传感器,搭配IMU惯性测量单元、工业编码器
- 视觉模块:全局快门工业相机+广角镜头,补光环形灯,防尘防水工业防护等级
- 执行驱动:直流伺服电机+差分/阿克曼底盘,电磁制动模块
- 辅助硬件:超声波避障传感器、工业交换机、UPS稳压电源、紧急停机模块
二、导航整体方案
采用激光SLAM为主、视觉辅助修正、多传感器融合架构,适配工厂货架、人员混行、动态障碍物场景,实现建图、定位、路径规划、避障全流程自主导航。
三、视觉核心算法
- 环境感知:视觉图像畸变矫正、ROI区域裁剪、图像增强,提升车间暗光/粉尘环境成像质量
- 特征提取与匹配:ORB特征点快速提取匹配,用于场景闭环检测、位姿校正,修正激光漂移
- 视觉语义分割:轻量级CNN模型,分割货架、地面标线、行人、叉车等目标,区分可通行/禁行区域
- 目标检测与动态避障:轻量化检测算法,实时识别动态人员、临时堆放杂物,预判运动轨迹
- 视觉辅助定位:结合AprilTag/二维码视觉地标,实现高精度点位校准,满足工位精准停靠
- 多传感器融合:视觉位姿、激光点云、IMU数据卡尔曼滤波融合,提升复杂工况下定位稳定性
四、导航控制逻辑
- 离线:激光+视觉联合建图,构建二维栅格地图+语义地图
- 在线:实时全局定位,A*算法全局路径规划,Dijkstra局部路径微调
- 安全机制:多层避障逻辑(激光远距离、视觉语义、超声波近距),低速绕行+急停联动。
二面问了:
- 自我介绍
- 创建个人网站的目的
- 关于 科研 创业 就业 的看法(你科研的目的是为了研究本身还是为了行业应用)
- 如果管整个机器人项目(有你不熟悉的部分),你怎么管理
- 从产品角度考虑(涉及市场、资金、供应链、加工段,需要考虑成本、质量检测、人员安排)
- 遥操作实习经历介绍项目情况和目的
- 对特种机器人行业看法
- 个人的就业规划
- 对创业的理解
- 希望在公司做什么,以及从公司获得什么
- 遇到过什么大压力事件
- 个人驱动力是什么