6D Pose Estimation 및 Grasp Detection 방법론 정리

2022. 3. 6. 18:06로봇팔 연구

3D Localization(RGB-D 이미지 상에서 물체의 위치와 영역파악) 3가지 방법론 존재
 
1. Tradional Methods
 
  <object detection>
  => RGB-D -> 3D sliding boxes -> 3D descriptors -> Use tranined classifiers
  <segmentation>
  => RGB-D -> 3D points cloud -> 3D Contours -> Clustring
 
2. RGB-Detection Combined Methods
 
<object detection>
 => RGB-D -> 2D detction results -> Related 3D regions -> Compute 3D boiunding boxes
ex) FrustumConvNet , PointRCNN, VoteNet
<segmentation>
 => RGB-D -> 2D segmentation results -> Related 3D regions -> Refine Results
ex) GSPN, 3D-SIS
 
3. 3D Depp Learning Methods
 
<object detection>
 => RGB-D -> 3D points cloud -> CNN architecture -> Directly regress results
ex) VoxelNet, PointPillars, 3DSSD
<segmentation>
 => RGB-D -> 3D points cloud -> CNN architecture -> Directly regress results
  ex) SGPN, MASC, ASIS, JSIS3D, 3D-BoNet, LiDARSeg
 
 
6D POSE ESTIMATION(카메라와 물체 사이의 Rotation 과 Translation 추정)
 
로봇의 Bin Picking 혹은 Grashping Task를 수행하기 위해서는 로봇팔의 base로 부터 물체까지의 정보들을 알고있어야만 하며 로봇의 자세를 추정하기 위한 방법론이 6D Pose Estimation 이다. 
 
1.  Corrspondence-based Methods
 input Image -> CNN architecture  -> Keypoints,Edge Vectors, Symmetry correspondense -> EPnp 알고리즘을 거치며 6D pose 추정  (최근에 많이 사용하는 방식이지만 EPnp 알고리즘이 소요시간이 꽤길어 바로 6d pose를 계산하는 알고리즘보다는 속도가 느린 단점이 존재)
ex) HybridPose(2020)
 
2. Template-based Methods
Input Image -> CNN architecture -> Label Image, Center Distance , Center Direction X,Y -> 물체의 Trnaslation을 추정하여 추정한 값을 Hough Voting -> 6D pose 
ex) PoseCNN(2017)
 
3. Voting-based Methods
 
Input Image ->  CNN architecture -> Keypoint로 향하는 Vector이미지를 생성함으로써 키포인트까지의 Distribution을 계산 -> Key point Voting -> Voting 된 Keypoint Distribution을 3d Keypoints로 활용 -> EPnp 알고리즘을 거쳐 6D Pose 추출
ex)PVNet(2019)
 
GRASP ESTIMATION(파지 위치 결정)
 
1. 2D Planer Grasp Estimation
 
 => Depth Image -> Grasp candidate(파지 후보위치) 계산 -> GQ-CNN architecture  -> Best Grasp Quality 출력 => 앞서 뽑은 가장 퀄리티가 높은 파지점을 Grasping 
ex) Dex-net2.0(2017)
 
2. 6DoF Grasp Estimation
 
=> RBG-D 이미지를 통해 Object Point Cloud 생성 ->Variational Auto Encoder 방식의 Grasp을 생성하는  Sampler를 거침 -> point clound상에서 파지가 가능하다 하는 Sampled Grasps 이 형성됨 -> Grasp Evaluator 방식을 통해 여려개의 Sampled Graps 지점중 가장 robust하게 잡을 수 있는 위치를 판단 
ex) 6-dof graspnet(2019)  Grasp Evaluator를 학습할때 모든 Sampled Grasps를 잡아보며 가장 Robust하게 잡히는 지점을 찾도록 학습함.