논문 리뷰(6)
-
CenterSnap: Single-Shot Multi-Object 3D Shape Reconstructionand Categorical 6D Pose and Size Estimation 논문 리뷰
Reference Paper : https://arxiv.org/abs/2203.01929 INTRODUCTION CentenrSnap 논문에서 가장 먼저 소개되는 내용은 위 사진과 같은 전체 적인 모델의 파이프라인이다. 최근 shape reconstruction 과 categry-level 6D pose 연구에서는 위 사진의 왼쪽 부분과 같이 Multi-stage 방식으로 많이 연구 되어진다. 보통 첫번째 stage에서는 2D detection 을 위한 단계이고 두번째 단계에서 object recontstruction 혹은 6D pose estimation 이 이루어진다. 이러한 과정은 투 Stage이기 때문에 비용적으로 효율적이지 못하고 real-world 에서 새로운 Instance의 추론에 있어 ..
2023.12.05 -
OnePose: One-Shot Object Pose Estimation without CAD Models 논문 리뷰
1. Intro 대부분의 Pose Estimation Task에서는 객체에 대한 3D CAD 모델에 의존하며 이미 모델을 가지고 있다 하고 가정한다. 최근에는 Instance-level CAD 모델에 의존하지 않기 위해 category-level에서의 pose estimation 연구가 많이 진행되어 왔다. 같은 category 내의 서로다른 Instance들을 하나의 범주로 묶으면서 새로운 인스턴스를 일반화 할수 있게 되었지만 여전히 이는 많은 훈련 샘플을 요하고 또한 새로운 Instance가 기존의 category 샘플들에서 아주 다른 모양이나 크기를 가지게 되면 일반화 기능이 보장되지 않을 수 있다. 이러한 문제를 해결하기 위한 완전히 새로운 방식의 모델을 제안하는것이 OnPose이다. 객체의 sp..
2023.05.12 -
Instant Neural Graphics Primitives with a Multiresolution Hash Encoding 논문 리뷰
우리가 앞서 기존 Nerf 모델에서 이미지를 더욱 자세히 표현하게 해주는 기법인 Positional Encoding 기법에 대하여 다룬적이 있다. 기존의 Encoding 방식에서의 단점은 computational cost가 크기 때문에 속도가 엄청 느린 단점이 존재하였다. 이번에 소개할 논문은 어떤 Task에 국한 되지 않고 Nerf 이외에도 다양한 방법론에서 쓰일 수 있는 Multiresolution Hash Encoding 기법을 소개하며 동시에 빠르고 높은 퀄리티로 선명한 이미지를 얻을 수 있게하는 방법론을 제시한다. 1.INTRODUCTION 여러가지 분야에 적용될 수 있는 이번 Encoding 방식은 크게 4가지 방식에 적용될 수 있다고한다. GigaPixel image => SuperResou..
2023.05.12 -
NeRF : (Representing Scenes as Neural Radiance Fields for View Synthesis) 논문 리뷰 및 코드 리뷰
NeRF 라는 정말 3D Representation 분야에서 혁신적인 개념이 등장했다. 2020년에 처음 출시되어 꾸준히 하루에 한개씩 논문이 나올만큼 3D Vision 분야에서 뜨거운 감자 같은 주제이니 반드시 알아 두어야 겠다고 생각하여 리뷰를 하고자 한다. 1. INTRODUCTION 기존에 3D Representation 방식에서 많이 사용되어지는 방법은 Discrete Representation 방식이며 주로 Voxel,PointCloud, Mesh등으로 많이 표현되었다. NeRF 는 일반 2D 카메라를 이용해서 카메라로 인해 훼손된 빛에 의한 손실과 깊이정보를 복원하여 3D Representation을 하는 기술을 말한다. MLP에 학습시킬 입력으로써 카메라 시점 View Direction (..
2022.12.18 -
Bin Picking System Based on Point Cloud Deep Learning for Industrial Application
이번 포스팅에서는 'Bin Picking System Based on Point Cloud Deep Learning for Industrial Applications' 라는 논문을 리뷰해보고자 한다. 이 논문에서는 심층학습 기반의 빈피킹 방식의 연구방식을 제시한다. 먼저 RGB-D 카메라로 물체들의 Point Cloud Data를 얻어 Point Cloud를 각각의 형상을 군집으로 나누어 분할 한다. 심층 학습(GresNet)으로 각 군집의 파지 가능성을 추정하고, 이를 기반으로 가장 적절한 파지 대상을 선정한다. 이후 파지자세와 이동경로를 설정하여 물체 파지를 하는 알고리즘이다. 즉 Point Cloud processing -> deep lerning processing -> collision avoi..
2022.02.06 -
YOLOR 논문 Review
1. YOLOR이란? YOLOv3 ->> YOLOv4 -> Scaled TOLOV4 -> YOLOR 같은 저자가 연구 한 모델임 Multi-task 수행 방법의 새로운 고안을 위한 모델 기존의 Multi-task 같은 경우 a)와 같이 하나의 인풋에 대해서 여러개의 모델을 만들어 여러개의 아웃풋으로 수행하거나 b)와 같이 하나의 backbone을 공유하고 서로다른 헤드를 붙여 수행하는 식이였다. YOLOR의 핵심은 여러개의 신경망을 쓰는게 아닌 하나의 통합된 신경망을 사용함으로써 Muti-tak가 가능하도록 하는것이다. 이를 위해 implicit Knowledge(암시적 지식) 을 사용하는것을 얘기 한다. 여기서 Explicit Knowledge란 우리가 일반적으로 아는 신경망의 결과 즉 개랑 고양이를 ..
2021.10.08