[DL] Batch size 설정하는 법 및 크기에 따른 특징

728x90

딥러닝 모델의 학습 과정에서 배치 크기(batch size)의 설정은 모델의 성능과 학습 속도에 큰 영향을 미칩니다. 배치 크기를 결정할 때 고려해야 할 몇 가지 중요한 요소들과 일반적인 권장 사항을 다음과 같이 정리했습니다.

모델의 복잡성: 더 크고 복잡한 모델은 더 많은 메모리를 소비합니다. 모델의 크기와 복잡성에 따라 적절한 배치 크기를 결정해야 합니다.
이미지 크기: 224x224보다 큰 이미지는 더 많은 메모리를 사용합니다. 이미지 뿐만 아니라 오디오나 텍스트 데이터셋과 같은 비이미지 데이터셋에서도 데이터 포맷에 따라 메모리 사용량이 달라질 수 있습니다.
기타 메모리 사용: 옵티마이저, 그래디언트 축적(gradient accumulation), 중간 활성화, 그리고 기타 연산에 필요한 추가 메모리도 고려해야 합니다.

장점:
- 더 좋은 일반화: 과적합 위험 감소.
- 메모리 요구량 감소: 제한된 메모리에서 효과적.
- 더 자주 업데이트: 더 빠른 수렴 가능.
단점:
- 더 많은 업데이트로 인해 학습 시간 증가 가능.
- 불안정한 그래디언트: 노이즈가 많은 업데이트로 인해 수렴이 불안정할 수 있음.

장점:
- 더 빠른 학습: 적은 수의 업데이트로 더 빠른 Epoch 수행.
- 안정적인 그래디언트: 노이즈가 적은 평균화된 업데이트.
- 대규모 데이터셋 처리 용이: 더 많은 데이터를 한 번에 처리.
단점:
- 큰 메모리 요구량: 고성능 GPU/TPU 필요.
- 과적합 위험 증가: 특히 데이터가 다양하지 않은 경우.
- 최적화 어려움: 큰 배치에서 최적의 학습률 찾기가 어려울 수 있음.

GPU 메모리: 사용 가능한 GPU 메모리의 양도 배치 크기 결정에 중요한 요소입니다. 더 많은 GPU 메모리를 사용할 수 있으면, 보통 더 큰 배치 크기를 설정할 수 있습니다.
학습 효율성: 너무 작은 배치 크기는 학습 시간을 길게 할 수 있으며, 너무 큰 배치 크기는 메모리 오류를 일으키거나 학습의 효율성을 떨어뜨릴 수 있습니다.
일반화와 과적합: 일부 연구에 따르면, 작은 배치 크기는 모델의 일반화에 도움이 될 수 있으며, 너무 큰 배치 크기는 과적합의 위험을 증가시킬 수 있습니다.
하이퍼파라미터 조정: 배치 크기를 변경할 때는 학습률과 같은 다른 하이퍼파라미터도 조정해야 할 수 있습니다.

배치 크기를 결정할 때는 이러한 장단점을 고려하여, 모델의 특성과 사용 가능한 컴퓨팅 리소스에 맞는 최적의 크기를 선택해야 합니다. 실험적 접근을 통해 모델에 가장 적합한 배치 크기를 찾는 것이 중요합니다.

728x90

[DL] PyTorch의 DataLoader에서 pin_memory의 이해와 활용 (0)	2023.12.25
[DL] num_workers 이해와 활용 (0)	2023.12.24
Co-week 수료증 (0)	2023.10.03
Optimizer 총정리 : GD, SGD, Momentum, Adagrad, RMSProp, Adam (2)	2023.10.02
Naver 부스트코스 - Certificate (0)	2023.10.01

BluePrint