📙 Fundamentals/ML&DL

이미지 전처리 | 리사이징 (Resizing)

Lento_ 2025. 5. 4. 17:59

Resizing_리사이징

: 딥러닝에서 이미지를 처리할 때, 특히 CNN(Convolutional Neural Network, 컨볼루션 신경망)을 사용하는 이미지 분류 작업에서는 이미지 크기를 정사각형으로 조정하는 전처리 과정


► 정사각형으로 리사이징이 필요한 이유

 1. 계산 효율성 향상

: CNN은 이미지를 숫자 행렬로 처리하며, 이 행렬의 크기는 모델의 계산 복잡성과 직접적으로 연결이 된다. 예를 들면, 다양한 크기의 이미지를 그대로 모델에 넣으면 입력 차원이 일관되지 않아 학습 속도가 느려지거나 구조 정의가 복잡해진다. 반대로, 정사각형으로 이미지를 리사이징 한다면, 입력 차원이 고정되어  모델 설계가 쉬워지고 불필요한 padding 또는 crop 작업을 최소화하여 효율적인 학습이 가능하다.

 

2. 사전 훈련된 모델과의 호환성

: 많은 CNN 기반의 사전 훈련 모델(VGGNet, ResNet 등)은 224×224 또는 299×299와 같은 정사각형 형태의 입력 이미지에 대해 학습되었다. 정사각형 크기로 맞추면 이러한 사전 훈련된 모델을 그대로 활용하거나 특정 계층만 수정하여 효율적으로 모델을 발전시킬 수 있다.

: 또한 전이 학습(Transfer Learning)을 활용하려면, 입력 이미지의 크기를 사전 훈련 모델이 요구하는 형태로 맞춰야 한다. 

 

3. 입력 데이터의 일관성 유지

: CNN은 고정된 크기의 입력을 요구하지만, 실제 데이터셋은 다양하게 존재한다. 이러한 이미지들을 그대로 입력하면 처리 과정이 복잡해지며, 메모리 관리도 어려워진다. 정사각형으로 크기를 조정하면 모든 이미지가 동일한 텐서 크기를 가지게 되어 배치 처리 속도가 향상되고 모델 디버깅 및 평가가 쉬워진다.

 

4. 왜곡 없이 종횡비 유지

: 리사이징 시 중요한 또 하나의 포인트는 시각 정보의 왜곡 방지이다. 종횡비가 유지되지 않는다면, 이미지가 늘어나거나 찌그러지면서 중요한 특징들이 손실될 수 있다. 이를 해결하기 위해 패딩(Padding) 방식으로 이미지의 가장자리를 채워 정사각형으로 만들기도 한다. 예를 들어, 800×600 이미지를 상하단에 패딩을 추가하여 800×800으로 맞춘 후  224×224로 정사각형 형태로 축소하여 왜곡 없이 종횡비를 유지할 수 있다.