📙 Fundamentals/ML&DL

차원 축소 기법 : 주성분 분석(PCA) VS 요인 분석

Lento_ 2025. 4. 7. 00:35

주성분 분석 (PCA: Principal Component Analysis) 

(목적)

: 고차원 데이터를 저차원으로 축소하면서 분산(정보)을 최대한 보존

: 변수 간 상관관계를 고려해 새로운 축(주성분) 생성

 

(주요 개념)

: 주성분 (Principal Component): 기존 변수들의 선형 결합

: 주성분끼리는 직교(orthogonal) → 중복되는 정보 없음

: 설명된 분산(Explained Variance): 각 주성분이 설명하는 데이터의 정보량

 

(분석 순서)

1. 데이터의 표준화
: PCA는 데이터의 분산과 공분산을 기반으로 주성분들을 추출하기 때문에, 먼저 데이터를 평균이 0이고 분산이 1인 형태로 표준화한다.

2. 변수들 간의 공분산 행렬 계산

: 표준화된 데이터를 기반으로 공분산 행렬을 계산한다. 이 행렬은 각 변수들 간의 상관관계와 분산을 나타낸다.

3. 고유값 분해

: 공분산 행렬을 고유값 분해 하여 고유값과 고유벡터를 구한다.

: 고유값은 각 주성분이 데이터 분산에서 차지하는 비율을 나타내며, 고유벡터는 주성분의 방향을 나타낸다.

4. 고유벡터(주성분) 선택 → 큰 고유값 순으로 선택

: 고유값이 가장 큰 k개의 고유벡터를 선택한다.(k <= d)

5. 데이터 변환(데이터 투영 → 차원 축소)

: 선택한 주성분들을 이용하여 데이터를 새로운 저차원 공간으로 변환한다. 이 과정을 통해 차원이 축소된 데이터를 얻을 수 있다.

 

(특징)

- 고차원의 데이터를 함축적으로 표현하기 때문에 직관적 해석이 어려움.

- 대용량 고차원 데이터 압축시 유용하게 활용됨.

 

 

(장점)

- 정보 손실 최소화한 차원 축소

- 시각화 및 노이즈 제거에 효과적

- 변수 간 다중공선성 제거 가능

 

(단점)

- 주성분 해석이 어려움 (의미 파악 불가)

- 비선형 구조 반영 불가

- 변수 단위 차이 클 경우 정규화 필요


요인 분석 (Factor Analysis)

(목적)

: 변수 간 상관관계를 공통된 잠재 요인(Latent Factor)으로 설명

: 숨겨진 요인을 찾아 데이터의 구조적 해석 수행

 

(주요 개념)

: 각 변수 = 공통 요인 × 적재량 + 고유 요인(오차)

: 요인 적재량 (Factor Loading): 요인이 변수에 미치는 영향력

: 요인 회전 (Factor Rotation): 요인 해석을 명확하게 하기 위한 변환 (ex. Varimax)

 

(분석 순서)

1. 상관행렬 분석

2. 요인의 수 추정 (기본적으로 연구자가 지정)

3. 요인 적재량 계산

4. 회전을 통해 해석 용이화

 

(장점)

- 구조적 해석 가능 → 변수에 숨겨진 요인 파악

- 각 변수에 대한 요인의 영향력 정량화 가능

- 설문지, 심리 테스트 등 사회과학 분야에 적합

 

(단점)

- 샘플 수에 민감, 결과의 안정성 확보 어려움

- 통계적 가정(정규성, 독립성 등)이 많음

- 요인 수 설정에 연구자의 주관이 개입


비교 요약

  주성분 분석 (PCA) 요인 분석 (Factor Analysis)
목적 데이터 정보 압축 및 축소(정보 최대 보존) 숨겨진 요인(구조) 추정
오차 고려 없음 있음
데이터 모델 분산 중심 요인 모델(공통 요인 + 오차)
변수 표현 선형 결합된 축 (주성분) 공통 요인 + 고유 요인
해석 해석 어려움 비교적 해석 용이
가정 통계적 가정 거의 없음 통계적 가정 존재
활용 시각화, 전처리, 노이즈 제거 설문, 심리 테스트 해석 등
분석 대상 설명 가능한 축 설명 가능한 원인 요인
주요 분야 머신러닝, 이미지 분석 등 심리학, 설문, 교육 등