그라디언트 누적1 [DL] Gradient Accumulation & 활용 Gradient Accumulation 소개 Gradient Accumulation은 메모리 제약 때문에 큰 배치 사이즈를 사용할 수 없을 때 사용되는 기법입니다. 이 방법은 미니 배치를 통해 얻은 그래디언트를 여러 스텝에 걸쳐 누적한 후, 일정한 누적이 이루어진 후에 모델의 가중치를 업데이트합니다. Gradient Accumulation의 작동 원리 기본 프로세스: 일반적인 학습 과정에서는 배치 사이즈 만큼의 데이터를 통해 한 번의 forward pass와 backpropagation을 진행합니다. Accumulation Step: Gradient Accumulation에서는 각 미니 배치의 그래디언트를 바로 업데이트하지 않고, 지정된 accumulation step만큼 그래디언트를 누적합니다. 가중치.. 2023. 12. 26. 이전 1 다음 728x90