
주성분 분석 (PCA: Principal Component Analysis)
(목적)
: 고차원 데이터를 저차원으로 축소하면서 분산(정보)을 최대한 보존
: 변수 간 상관관계를 고려해 새로운 축(주성분) 생성
(주요 개념)
: 주성분 (Principal Component): 기존 변수들의 선형 결합
: 주성분끼리는 직교(orthogonal) → 중복되는 정보 없음
: 설명된 분산(Explained Variance): 각 주성분이 설명하는 데이터의 정보량
(분석 순서)
1. 데이터의 표준화
: PCA는 데이터의 분산과 공분산을 기반으로 주성분들을 추출하기 때문에, 먼저 데이터를 평균이 0이고 분산이 1인 형태로 표준화한다.
2. 변수들 간의 공분산 행렬 계산
: 표준화된 데이터를 기반으로 공분산 행렬을 계산한다. 이 행렬은 각 변수들 간의 상관관계와 분산을 나타낸다.
3. 고유값 분해
: 공분산 행렬을 고유값 분해 하여 고유값과 고유벡터를 구한다.
: 고유값은 각 주성분이 데이터 분산에서 차지하는 비율을 나타내며, 고유벡터는 주성분의 방향을 나타낸다.
4. 고유벡터(주성분) 선택 → 큰 고유값 순으로 선택
: 고유값이 가장 큰 k개의 고유벡터를 선택한다.(k <= d)
5. 데이터 변환(데이터 투영 → 차원 축소)
: 선택한 주성분들을 이용하여 데이터를 새로운 저차원 공간으로 변환한다. 이 과정을 통해 차원이 축소된 데이터를 얻을 수 있다.
(특징)
- 고차원의 데이터를 함축적으로 표현하기 때문에 직관적 해석이 어려움.
- 대용량 고차원 데이터 압축시 유용하게 활용됨.
(장점)
- 정보 손실 최소화한 차원 축소
- 시각화 및 노이즈 제거에 효과적
- 변수 간 다중공선성 제거 가능
(단점)
- 주성분 해석이 어려움 (의미 파악 불가)
- 비선형 구조 반영 불가
- 변수 단위 차이 클 경우 정규화 필요
요인 분석 (Factor Analysis)
(목적)
: 변수 간 상관관계를 공통된 잠재 요인(Latent Factor)으로 설명
: 숨겨진 요인을 찾아 데이터의 구조적 해석 수행
(주요 개념)
: 각 변수 = 공통 요인 × 적재량 + 고유 요인(오차)
: 요인 적재량 (Factor Loading): 요인이 변수에 미치는 영향력
: 요인 회전 (Factor Rotation): 요인 해석을 명확하게 하기 위한 변환 (ex. Varimax)
(분석 순서)
1. 상관행렬 분석
2. 요인의 수 추정 (기본적으로 연구자가 지정)
3. 요인 적재량 계산
4. 회전을 통해 해석 용이화
(장점)
- 구조적 해석 가능 → 변수에 숨겨진 요인 파악
- 각 변수에 대한 요인의 영향력 정량화 가능
- 설문지, 심리 테스트 등 사회과학 분야에 적합
(단점)
- 샘플 수에 민감, 결과의 안정성 확보 어려움
- 통계적 가정(정규성, 독립성 등)이 많음
- 요인 수 설정에 연구자의 주관이 개입
비교 요약
| 주성분 분석 (PCA) | 요인 분석 (Factor Analysis) | |
| 목적 | 데이터 정보 압축 및 축소(정보 최대 보존) | 숨겨진 요인(구조) 추정 |
| 오차 고려 | 없음 | 있음 |
| 데이터 모델 | 분산 중심 | 요인 모델(공통 요인 + 오차) |
| 변수 표현 | 선형 결합된 축 (주성분) | 공통 요인 + 고유 요인 |
| 해석 | 해석 어려움 | 비교적 해석 용이 |
| 가정 | 통계적 가정 거의 없음 | 통계적 가정 존재 |
| 활용 | 시각화, 전처리, 노이즈 제거 | 설문, 심리 테스트 해석 등 |
| 분석 대상 | 설명 가능한 축 | 설명 가능한 원인 요인 |
| 주요 분야 | 머신러닝, 이미지 분석 등 | 심리학, 설문, 교육 등 |
'📙 Fundamentals > ML&DL' 카테고리의 다른 글
| 회귀 모델 | 단순 선형 회귀_Simple Linear Regression (0) | 2025.04.12 |
|---|---|
| 퍼셉트론(Perceptron) (0) | 2025.04.10 |
| 앙상블(Ensemble) (0) | 2025.04.06 |
| 결정트리 : Information Gain, Entropy, Gini 계수, Misclassification Error (0) | 2025.04.06 |
| 결정 트리 Decision Tree (0) | 2025.04.06 |