차원 축소 기법 : 주성분 분석(PCA) VS 요인 분석

📙 Fundamentals/ML&DL

차원 축소 기법 : 주성분 분석(PCA) VS 요인 분석

Lento_ 2025. 4. 7. 00:35

주성분 분석 (PCA: Principal Component Analysis)

(목적)

: 고차원 데이터를 저차원으로 축소하면서 분산(정보)을 최대한 보존

: 변수 간 상관관계를 고려해 새로운 축(주성분) 생성

(주요 개념)

: 주성분 (Principal Component): 기존 변수들의 선형 결합

: 주성분끼리는 직교(orthogonal) → 중복되는 정보 없음

: 설명된 분산(Explained Variance): 각 주성분이 설명하는 데이터의 정보량

(분석 순서)

1. 데이터의 표준화
: PCA는 데이터의 분산과 공분산을 기반으로 주성분들을 추출하기 때문에, 먼저 데이터를 평균이 0이고 분산이 1인 형태로 표준화한다.

2. 변수들 간의 공분산 행렬 계산

: 표준화된 데이터를 기반으로 공분산 행렬을 계산한다. 이 행렬은 각 변수들 간의 상관관계와 분산을 나타낸다.

3. 고유값 분해

: 공분산 행렬을 고유값 분해 하여 고유값과 고유벡터를 구한다.

: 고유값은 각 주성분이 데이터 분산에서 차지하는 비율을 나타내며, 고유벡터는 주성분의 방향을 나타낸다.

4. 고유벡터(주성분) 선택 → 큰 고유값 순으로 선택

: 고유값이 가장 큰 k개의 고유벡터를 선택한다.(k <= d)

5. 데이터 변환(데이터 투영 → 차원 축소)

: 선택한 주성분들을 이용하여 데이터를 새로운 저차원 공간으로 변환한다. 이 과정을 통해 차원이 축소된 데이터를 얻을 수 있다.

(특징)

- 고차원의 데이터를 함축적으로 표현하기 때문에 직관적 해석이 어려움.

- 대용량 고차원 데이터 압축시 유용하게 활용됨.

(장점)

- 정보 손실 최소화한 차원 축소

- 시각화 및 노이즈 제거에 효과적

- 변수 간 다중공선성 제거 가능

(단점)

- 주성분 해석이 어려움 (의미 파악 불가)

- 비선형 구조 반영 불가

- 변수 단위 차이 클 경우 정규화 필요

요인 분석 (Factor Analysis)

(목적)

: 변수 간 상관관계를 공통된 잠재 요인(Latent Factor)으로 설명

: 숨겨진 요인을 찾아 데이터의 구조적 해석 수행

(주요 개념)

: 각 변수 = 공통 요인 × 적재량 + 고유 요인(오차)

: 요인 적재량 (Factor Loading): 요인이 변수에 미치는 영향력

: 요인 회전 (Factor Rotation): 요인 해석을 명확하게 하기 위한 변환 (ex. Varimax)

(분석 순서)

1. 상관행렬 분석

2. 요인의 수 추정 (기본적으로 연구자가 지정)

3. 요인 적재량 계산

4. 회전을 통해 해석 용이화

(장점)

- 구조적 해석 가능 → 변수에 숨겨진 요인 파악

- 각 변수에 대한 요인의 영향력 정량화 가능

- 설문지, 심리 테스트 등 사회과학 분야에 적합

(단점)

- 샘플 수에 민감, 결과의 안정성 확보 어려움

- 통계적 가정(정규성, 독립성 등)이 많음

- 요인 수 설정에 연구자의 주관이 개입

비교 요약

	주성분 분석 (PCA)	요인 분석 (Factor Analysis)
목적	데이터 정보 압축 및 축소(정보 최대 보존)	숨겨진 요인(구조) 추정
오차 고려	없음	있음
데이터 모델	분산 중심	요인 모델(공통 요인 + 오차)
변수 표현	선형 결합된 축 (주성분)	공통 요인 + 고유 요인
해석	해석 어려움	비교적 해석 용이
가정	통계적 가정 거의 없음	통계적 가정 존재
활용	시각화, 전처리, 노이즈 제거	설문, 심리 테스트 해석 등
분석 대상	설명 가능한 축	설명 가능한 원인 요인
주요 분야	머신러닝, 이미지 분석 등	심리학, 설문, 교육 등

저작자표시 비영리 변경금지 (새창열림)

'📙 Fundamentals > ML&DL' 카테고리의 다른 글

회귀 모델 \| 단순 선형 회귀_Simple Linear Regression (0)	2025.04.12
퍼셉트론(Perceptron) (0)	2025.04.10
앙상블(Ensemble) (0)	2025.04.06
결정트리 : Information Gain, Entropy, Gini 계수, Misclassification Error (0)	2025.04.06
결정 트리 Decision Tree (0)	2025.04.06

현재글차원 축소 기법 : 주성분 분석(PCA) VS 요인 분석

Untitled Archive

복습, Python, 자료구조, 이미지, Review, 마이크로프로세스, note, 파이썬, 넘파이, 데이터 분석, numpy, 딥러닝, Data Science, 데이터 사이언스, 데이터 전처리, class_review, 라즈베리파이, linux_리눅스, 정리, pandas,

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

Untitled Archive