[DL] Landmark Detecting

오늘의 인기 글

최근 글

최근 댓글

06-15 09:30

관리 메뉴

우노

AI/Deep Learning

운호(Noah) 2021. 2. 9. 13:59

이미지가 주어졌을 때, 이미지 내 객체의 위치를 Bounding Box(bx, by, bh, bw)로 출력하는 방법을 Object Localization 이라고 합니다.

얼굴로부터 감정을 인식하고 싶다고 가정해봅시다.
또한, 이미지가 주어졌을 때, 눈의 가장자리, 코의 가장자리, 입의 가장자리, 턱의 가장자리 등
얼굴을 인식할 수 있는 64개의 지점, 즉 64개의 Landmark가 있다고 가정해봅시다.
- 이 때, 각각의 Landmark는 X, Y 좌표를 가질 것입니다.
  - 첫 번째 Landmark의 X, Y 좌표는 L_x1, L_y1
  - 두 번 째 Landmark의 X, Y 좌표는 L_x2, L_y2
- 64개의 Landmark를 나열하면 [ L_x1, L_y1, L_x2, L_y2, ..., L_x64, L_y64 ] 로 총 128개가 될 것입니다.
따라서, Target Label y는 face(얼굴인지 아닌지 여부)와 Landmark의 나열로 이루어질 수 있습니다.
- 구체적으로 보면, 위 예시를 기준으로 [ face, L_x1, L_y1, L_x2, L_y2, ..., L_x64, L_y64 ] 가 됩니다.
- 즉, 129개의 아웃풋 유닛을 가지게 될 것입니다.

동작을 인식하고 싶다고 가정해봅시다.
또한, 이미지가 주어졌을 때, 가슴의 중간지점, 왼쪽 어깨, 오른쪽 어깨, 왼쪽 무릎, 오른쪽 무릎 등
포즈를 인식할 수 있는 32개의 지점, 즉 32개의 Landmark가 있다고 가정해봅시다.
- 이 때, 각각의 Landmark는 X, Y 좌표를 가질 것입니다.
  - 첫 번째 Landmark의 X, Y 좌표는 L_x1, L_y1
  - 두 번 째 Landmark의 X, Y 좌표는 L_x2, L_y2
- 32개의 Landmark를 나열하면 [ L_x1, L_y1, L_x2, L_y2, ..., L_x32, L_y32 ] 로 총 64개가 될 것입니다.
따라서, Target Label y는 pose(동작이 맞는지)와 Landmark의 나열로 이루어질 수 있습니다.
- 구체적으로 보면, 위 예시를 기준으로 [ pose, L_x1, L_y1, L_x2, L_y2, ..., L_x32, L_y32 ] 가 됩니다.
- 즉, 65개의 아웃풋 유닛을 가지게 될 것입니다.
물론, 위와 같은 네트워크를 다루기 위해서는 Training Set Label에도 일일이 Landmark를 달아줘야합니다.

[DL] One Shot Learning, Siamese Network, Triplet Loss, Binary Loss (1)	2021.02.10
[DL] Object Detection (Sliding Windows, YOLO) (1)	2021.02.10
[DL] Object Localization (객체 위치 식별) (3)	2021.02.09
[DL] Convolution, Padding, Stride, Pooling in CNN (1)	2021.02.03
[DL] LeNet-5, AlexNet, VGG-16, ResNet, Inception Network (1)	2021.02.03