결정트리 : Information Gain, Entropy, Gini 계수, Misclassification Error

📙 Fundamentals/ML&DL

결정트리 : Information Gain, Entropy, Gini 계수, Misclassification Error

Lento_ 2025. 4. 6. 18:07

[ Entropy ]

→ 엔트로피가 커질수록 Information Gain이 낮아지고 클래스 간의 명확한 구분이 어려우며 예측이 어려움.

: 데이터의 불순도(무질서함)

: 불순도 또는 혼잡도를 측정하는 지표

: 데이터가 얼마나 섞여 있는지를 나타낸다.

: 클래스가 다양할수록 엔트로피가 커진다.

: 정보 이론 기반 → "얼마나 예측이 어려운가"를 수치적으로 표현을 잘함.

(수식)

- Pi : 클래스 i의 비율 / c : 전체 클래스의 개수

(특징)

→ 값 범위: 0 ~ log₂(c) (이진 분류면 0 ~ 1)

→ 상대적으로 계산 복잡도가 복잡하다.

→ ID3, C4.5 알고리즘에서 사용

[ Gini 계수(Gini Impurity) ]

→ Gini 계수가 작을수록 노드는 순수(=하나의 클래스가 지배적)하며, 올바르게 분류될 확률이 높고 예측이 쉬워진다.

: 불순도 또는 혼잡도를 측정하는 지표

: 노드 내 임의로 선택한 두 샘플이 서로 다른 클래스일 확률

: 데이터 집합에 다양한 클래스(또는 레이블)가 얼마나 섞여 있는지

: 잘못 분류될 확률을 잘 나타냄.

(수식)

- pi = 특정 클래스에 속하는 항목의 비율

- pi 값이 클수록 지니 불순도는 낮아진다. == 데이터 집합의 순도가 높다는 의미

(특징)

→ 값 범위: 0 ~ (1 - 1/c) (이진 분류면 0 ~ 0.5) (cf. c = 전체 클래스의 수)

→ 계산 복잡도가 단순하다.

→ Gini가 작을수록 노드는 더 순수

→ Scikit-learn DecisionTreeClassifier의 기본값

→ CART 알고리즘에서 사용

[ Misclassification Error ]

→ 오류율이 작을수록 노드는 명확하게 분류되었다는 의미이고 예측 신뢰도가 높다.

: 거의 사용하지 않음! → 이론적으로만 사용

: 단순하고 둔감함

: "단순히 맞췄는지 / 틀렸는지" 만 본다.

: 계산 속도가 매우 빠르다.

(수식)

- pi = 클래스 i의 비율

(특징)

→ 가장 간단하지만, 미세한 변화에 둔감.

→ 분할 성능이 비슷하게 나오는 경우가 많기 때문에 실제로는 잘 사용하지 않는다.

[ Information Gain ]

→ Information Gain이 클수록 좋은 분할이고, 해당 특성(분할 기준으로 사용된 feature)이 예측에 큰 영향을 준다.

: Information Gain = 불순도 감소량(지표X)

: 분할 기준 평가 - "이 속성으로 나누면 불순도가 얼마나 줄어드냐?"

: 데이터를 어떤 기준(특징, 속성)으로 나눴을 때, "얼마나 더 순수한 그룹들로 나눠졌는가?"를 수치로 나타낸 값

: 결정 트리는 Information Gain이 가장 높은 특성부터 위쪽(루트)에 배치한다. → 트리의 윗부분에 있는 특성일수록 예측에 중요한 역할

(수식 (Entropy 기준))

- 전체 데이터 집합

- A = 분할 기준이 되는 속성

- Sv = A 속성이 v값을 가질 때의 데이터 서브 셋

- |Sv| / |S| = 각 서브셋의 비중

(수식 (Gini 기준))

(수식 (Misclassification Error 기준))

: Information Gain은 항상 무엇을 기준으로 계산했는지가 따라다녀야한다.

: (ex. Entropy 기반 Information Gain / Gini 기반 Information Gain)

(출처)

https://insidelearningmachines.com/gini_impurity/

저작자표시 비영리 변경금지 (새창열림)

'📙 Fundamentals > ML&DL' 카테고리의 다른 글

차원 축소 기법 : 주성분 분석(PCA) VS 요인 분석 (0)	2025.04.07
앙상블(Ensemble) (0)	2025.04.06
결정 트리 Decision Tree (0)	2025.04.06
교차 검증 : K-폴드 교차 검증 (0)	2025.03.30
머신러닝 모델 학습에서의 편향과 분산 (0)	2025.03.30

현재글결정트리 : Information Gain, Entropy, Gini 계수, Misclassification Error

Untitled Archive

note, 데이터 전처리, linux_리눅스, numpy, 마이크로프로세스, Python, 복습, Review, class_review, 파이썬, 넘파이, 데이터 분석, 이미지, pandas, 라즈베리파이, Data Science, 자료구조, 딥러닝, 정리, 데이터 사이언스,

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

Untitled Archive