[DL] 양자화(Quantization)란?

오늘의 인기 글

최근 글

최근 댓글

Today

Total

05-01 01:35

관리 메뉴

우노

[DL] 양자화(Quantization)란? 본문

AI/Deep Learning

[DL] 양자화(Quantization)란?

운호(Noah) 2022. 1. 10. 14:05

들어가기 앞서,

모바일이나 임베디드 환경에서, 딥러닝 모델을 사용한 추론은 어렵습니다.
- 일반 PC 와 달리, 메모리, 성능, 저장공간 등의 제한이 있기 때문입니다.
따라서, 딥러닝에서는 모델 경량화와 관련된 연구들이 많이 진행되고 있습니다.
- 즉, “모델을 가볍게 만드는 연구”라고 이해할 수 있습니다.
이러한 경량화 연구는 크게 두 가지로 나눠집니다.
1. 모델을 구성하는 알고리즘 자체를 효율적인 구조로 설계하는 연구
2. 기존 모델의 파라미터들을 줄이거나 압축하는 연구
전자의 경우, 대표적인 방법으로 “모델 구조 변경”, “효율적인 합성곱 필터 기술”, “경량 모델 자동 탐색 기술” 이 존재합니다.
- 모델 구조 변경
  - 모델 구조를 변경함으로써 경량화하는 방법 (ResNet, DenseNet, SqueezeNet, etc)
- 효율적인 합성곱 필터 기술
  - 채널을 분리시켜, 연산량과 변수의 개수를 줄임으로써 경량화하는 방법 (MobileNet, ShuffleNet, etc)
- 경량 모델 자동 탐색 기술
  - 자동 탐색 기법을 사용해, 경량화할 수 있는 모델 구조와 합성곱 필터를 설계하는 방법 (NetAdapt, MNAsNet, etc)
후자의 경우, 대표적인 방법으로 “가중치 가지치기”, “양자화”, “이진화” 가 존재합니다.
- 가중치 가지치기 (Weight Pruning)
  - 결과에 영향을 미치는 파라미터들을 제외한 나머지 파라미터들을 0 으로 설정하는 방법
- 양자화 (Quantization)
  - 부동소수점으로 표현되는 파라미터들을 특정 비트 수로 줄이는 방법
- 이진화 (Binarization)
  - 파라미터들을 이진화함으로써, 표현력은 줄어들지만, 정확도의 손실은 최소로하는 경량화 방법
    - 예를 들어, -1 과 1 로만 표현

양자화란?

Neural Network 모델의 내부는, 대부분 weight 와 activation output 으로 구성되어 있습니다.
또한, weight 와 activation output 은 모델의 정확도를 높이기 위해, 32bit floating point (FP32) 로 표현되고 있습니다.
- 전체적인 구조는 아래와 같습니다.
- 32bit floating point 는 아래와 같이 표현됩니다.
하지만, 리소스가 제한된 환경에서, 모든 weight 와 activation output 을 32bit floating point 로 표현한 모델은, 추론에 사용하기 어렵습니다.
따라서, 양자화는 weight 와 activation output 표현에 사용되는 비트 수를 줄임으로써, 모델의 크기를 줄이는 것을 의미합니다.
물론, 기존 모델보다 성능은 떨어질 수 있지만, 모델의 크기가 줄어들기 때문에, 제한된 리소스 환경에서도 사용할 수 있게 됩니다.

양자화의 주 목적

Training Time 을 줄이는게 아닌, Inference Time 을 줄이는 것이 주 목적입니다.

양자화 예제

각 계층의 소수값(Float32)들 중, 최소/최대 값을 구합니다.
해당 소수값(Float32)들을, 선형적으로 가장 가까운 정수값(Int8)에 매핑합니다.
- 예를 들어, 기존 계층의 소수값 범위가 -3.0 부터 6.0 까지라면,
- -3.0 은 -127 로, 6.0 은 +127 로 매핑됩니다.
이 방식을 사용한다면, 32bit 로 표현되는 weight 를 적은 bit 로 표현할 수 있으므로, 메모리 감소 효과 를 볼 수 있습니다.

양자화 종류

언제 Quantiation?
- Quantiation Aware Training
  - FP 모델로 학습하는 과정에서 Quantization 하는 것
- Post Training Quantiation
  - FP 모델로 학습한 뒤, Quantization 하는 것
어떻게 Quantiation?
- Dynamic
  - FP 모델로 학습한 뒤, weight 만 Quantiation 하고 있다가,
  - inference 시점에 동적으로 activation 을 Quantiation 하는 것
- Static
  - FP 모델로 학습한 뒤, weight 와 activation 에 대해 Quantiation 하는 것
무엇을 Quantiation?
- Weight
- Activation
얼마나 Quantiation?
- 16bit
- 8bit
- 4bit
- 2bit
- 1bit
- Mixed-precision

추가

PTQ 의 경우, 모델이 작을수록 Quantization 에 따른 정확도 감소가 크게 일어날 수 있습니다.
- 모델이 작을수록, Quantization 에 따라 모델이 예민하게 반응하기 때문입니다.

참고

'AI > Deep Learning' 카테고리의 다른 글

[DL] TVM 이란? (0)	2022.01.12
[DL] TFLite 와 TensorRT 간단 비교 (2)	2022.01.12
[DL] Tensorflow version 확인 (0)	2021.11.04
[DL] Tensorflow 모델 저장/불러오기 (0)	2021.08.12
[DL] Distributed Training (분산 학습) 이란? (0)	2021.07.29

'AI/Deep Learning' Related Articles

Comments

우노

[DL] 양자화(Quantization)란? 본문

[DL] 양자화(Quantization)란?

들어가기 앞서,

양자화란?

양자화의 주 목적

양자화 예제

양자화 종류

추가

참고

'AI > Deep Learning' 카테고리의 다른 글

티스토리툴바