🪴 Hayul's digital garden

Search

Search IconIcon to open search

SMOTE

Last updated Mar 12, 2023 Edit Source

SMOTE: Synthetic Minority Over-sampling Technique은 불균형한 데이터셋에서 분류기의 성능을 향상시키기 위한 방법입니다. 불균형한 데이터셋이란 한 클래스가 다른 클래스보다 훨씬 많은 비율로 존재하는 경우를 말합니다. SMOTE는 소수 클래스의 예제를 인공적으로 생성하여 소수 클래스를 오버샘플링하는 방식으로 작동합니다. 인공적인 예제는 소수 클래스의 가까운 이웃들을 기반으로 생성됩니다. SMOTE는 C4.5, Ripper, Naive Bayes와 같은 분류기에 적용할 수 있으며, ROC 곡선 아래 면적(AUC)을 사용하여 평가됩니다.

SMOTE의 동작 원리는 다음과 같습니다. 소수 클래스의 예제를 선택하고 그 예제와 가장 가까운 k개의 이웃을 찾습니다. 그 다음에 이웃들과의 차이 벡터에 임의의 수를 곱하여 새로운 예제를 생성합니다. 이 과정을 반복하여 원하는 만큼 소수 클래스의 예제를 늘립니다. 이렇게 하면 소수 클래스가 과대표현되지 않고 다양한 패턴을 학습할 수 있습니다.

장점:

단점: