[DL] 학습 데이터 최적화 전략: Active Learning과 Data Subsampling 상세 설명 및 예제 코드

728x90

Active Learning의 확장된 설명

Active Learning은 학습 모델의 성능 향상을 위해 가장 유용한 데이터 포인트를 식별하고 선택하는 프로세스입니다. 이 방법은 특히 레이블링 비용이 높거나 데이터가 많아 학습 시간이 오래 걸리는 경우에 유용합니다.

Uncertainty Sampling

작동 원리: 모델이 가장 확신이 없는 데이터를 선택합니다. 이는 모델이 스스로 학습에 가장 도움이 될 만한 데이터를 식별할 수 있음을 의미합니다.
예제 코드:

# 예제: 가장 낮은 확률 예측을 가진 데이터 포인트 선택
probabilities = model.predict_proba(unlabeled_data)
uncertainties = 1 - np.max(probabilities, axis=1)
query_idx = np.argmax(uncertainties)

Query-by-Committee

작동 원리: 여러 모델(위원회)이 예측한 결과 중 가장 의견이 분분한 데이터를 선택합니다. 이는 다양한 모델의 관점에서 중요한 데이터를 식별합니다.
예제 코드:

# 예제: 여러 모델의 예측을 비교하여 가장 불확실한 데이터 선택
predictions = [model.predict(unlabeled_data) for model in committee]
variances = np.var(predictions, axis=0)
query_idx = np.argmax(variances)

Data Subsampling의 확장된 설명

Data Subsampling은 큰 데이터셋을 더 작고 관리 가능한 서브셋으로 줄이는 프로세스입니다. 이를 통해 계산 비용을 줄이고, 메모리 요구 사항을 감소시키며, 학습 시간을 단축할 수 있습니다.

Random Subsampling

작동 원리: 데이터셋에서 무작위로 데이터 포인트를 선택합니다.
예제 코드:

# 예제: 데이터셋에서 무작위로 샘플 선택
subsample = data.sample(n=1000)  # 1000개의 무작위 샘플 선택

Stratified Subsampling

작동 원리: 각 클래스의 비율을 유지하며 서브샘플링을 수행합니다. 불균형한 데이터셋에서 유용합니다.
예제 코드:

# 예제: 클래스 비율을 유지하며 데이터셋에서 샘플 선택
from sklearn.model_selection import train_test_split
X_train, X_subsample, y_train, y_subsample = train_test_split(data, labels, test_size=0.1, stratify=labels)

Cluster-based Subsampling

작동 원리: 데이터를 클러스터링하고 각 클러스터에서 대표 샘플을 선택합니다.
예제 코드:

# 예제: K-Means 클러스터링을 사용하여 클러스터 대표 샘플 선택
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=10).fit(data)
subsample = data.iloc[kmeans.sample_centers_indices_]

결론

Active Learning과 Data Subsampling은 각각 데이터의 질과 양 측면에서 학습 효율성을 높이는 데 중요합니다. Active Learning은 비용 효율적인 데이터 레이블링에 초점을 맞추고, Data Subsampling은 큰 데이터셋의 계산 효율성을 높이는 데 중점을 둡니다. 두 전략을 적절히 조합하면 학습 데이터의 관리와 활용을 최적화할 수 있습니다.