오늘의 인기 글
최근 글
최근 댓글
Today
Total
05-04 00:00
관리 메뉴

우노

[DL] Landmark Detecting 본문

AI/Deep Learning

[DL] Landmark Detecting

운호(Noah) 2021. 2. 9. 13:59

Landmark Detecting

  • 이미지가 주어졌을 때, 이미지 내 객체의 위치를 Bounding Box(bx, by, bh, bw)로 출력하는 방법을 Object Localization 이라고 합니다.

  • 또한, 이미지가 주어졌을 때, 이미지 내 객체의 주요 지점을 X, Y 좌표로 출력하는 방법도 있습니다.
  • 이를 Landmark Detecting이라고 합니다.

Target Label y 예시 1

  • 얼굴로부터 감정을 인식하고 싶다고 가정해봅시다.
  • 또한, 이미지가 주어졌을 때, 눈의 가장자리, 코의 가장자리, 입의 가장자리, 턱의 가장자리 등
  • 얼굴을 인식할 수 있는 64개의 지점, 즉 64개의 Landmark가 있다고 가정해봅시다.
    • 이 때, 각각의 Landmark는 X, Y 좌표를 가질 것입니다.
      • 첫 번째 Landmark의 X, Y 좌표는 L_x1, L_y1
      • 두 번 째 Landmark의 X, Y 좌표는 L_x2, L_y2
    • 64개의 Landmark를 나열하면 [ L_x1, L_y1, L_x2, L_y2, ..., L_x64, L_y64 ] 로 총 128개가 될 것입니다.
  • 따라서, Target Label y는 face(얼굴인지 아닌지 여부)와 Landmark의 나열로 이루어질 수 있습니다.
    • 구체적으로 보면, 위 예시를 기준으로 [ face, L_x1, L_y1, L_x2, L_y2, ..., L_x64, L_y64 ] 가 됩니다.
    • 즉, 129개의 아웃풋 유닛을 가지게 될 것입니다.

Target Label y 예시 2

  • 동작을 인식하고 싶다고 가정해봅시다.

  • 또한, 이미지가 주어졌을 때, 가슴의 중간지점, 왼쪽 어깨, 오른쪽 어깨, 왼쪽 무릎, 오른쪽 무릎 등

  • 포즈를 인식할 수 있는 32개의 지점, 즉 32개의 Landmark가 있다고 가정해봅시다.

    • 이 때, 각각의 Landmark는 X, Y 좌표를 가질 것입니다.
      • 첫 번째 Landmark의 X, Y 좌표는 L_x1, L_y1
      • 두 번 째 Landmark의 X, Y 좌표는 L_x2, L_y2
    • 32개의 Landmark를 나열하면 [ L_x1, L_y1, L_x2, L_y2, ..., L_x32, L_y32 ] 로 총 64개가 될 것입니다.
  • 따라서, Target Label y는 pose(동작이 맞는지)와 Landmark의 나열로 이루어질 수 있습니다.

    • 구체적으로 보면, 위 예시를 기준으로 [ pose, L_x1, L_y1, L_x2, L_y2, ..., L_x32, L_y32 ] 가 됩니다.
    • 즉, 65개의 아웃풋 유닛을 가지게 될 것입니다.
  • 물론, 위와 같은 네트워크를 다루기 위해서는 Training Set Label에도 일일이 Landmark를 달아줘야합니다.

Comments