[회귀 분석]
: 종속변수가 독립변수에 의해 어떻게 영향을 받는지 통계적으로 알려준다.
(종류)
1. 단순 선형 회귀 2. 다중 선형 회귀 3. 로지스틱 회귀
(WHEN)
1. 적은 데이터 세트
2. 간단하고 비용이 적게 드는 모델
3. 데이터의 패턴을 이해하고 설명하는 것이 중요할 때
4. 선형 관계가 강한 데이터일 때
(한계점)
1. 선형관계에만 집중
2. 단순함의 한계
* 선형 회귀 분석 = 독립변수 + 종속 변수 + 회귀선
[단순 선형 회귀분석_Simple Linear Regression]
: 한 개의 독립변수와 한 개의 종속 변수를 가지는 선형관계를 모델링함.
(회귀 계수 구하는 방법 - “OLS(최소제곱법)”이용)
1. 회귀 모델 정의
2. 오차의 제곱합 계산
3. 제곱합 최소화
[다중 선형 회귀분석_ Multiple Linear Regression]
: 여러 개의 독립 변수와 한 개의 종속 변수를 가지는 선형 관계를 모델링
[회귀분석의 기본 가정]
1. 종속 변수와 독립 변수 사이에는 선형성이 있어야함.
2. 모델의 예측과 실제 값 사이의 오차가 서로 영향을 주지 않아야 한다.
3. 오차는 정규분포(종 모양 패턴)을 따라야 한다.
4. 독립 변수가 어떤 값이든 오차의 분산이 같아야 한다.
5. 독립 변수들이 서로 너무 강하게 연관되어 있지 않아야 한다.
[회귀 모형 평가]
{회귀 모형 적합도 평가}
#결정계수_R-squared
: 값은 0과 1 사이에서 변함.
: 1에 가까울수록 모델이 데이터를 더 잘 설명한다는 의미
: BUT, 무조건 높은 것은 좋지 않음 -> 과적합 가능성 고려해야함
#조정된 결정 계수_Adjusted R-squared
: 불필요한 변수가 모델에 추가될 때 패널티를 부과함
#표준 오차_Standard Error
: 표준 오차가 작을수록 모델의 예측이 실제 값에 더 가깝다는 의미
#F-통계량_F-Statistic
: 모델의 전체 유의성 평가
#AIC #BIC
: 모델의 복잡성과 적합도 고려하는 지표
: 값이 작을수록 더 좋은 모델로 평가함
{회귀계수에 대한 T검정}
#통계적 유의성 판단
#신뢰 구간 추정
#변수 선택
#모델의 예측력 평가
[로지스틱 회귀분석]
# 확률 추정 #시그모이드 함수 # 최대 우도 추정 (MLE) #이진분류
(WHEN)
: 주로 이진 분류(Binary Classification)문제를 해결하기 위해 사용(BUT, 다중 클래스 분류 문제에도 적용 가능)
: 결과가 두 가지 범주 중 하나로 나누어지는 경우 적합
: 데이터 수가 많지 않은 경우 간단한 모델이 필요 시 사용
: 분석 결과에 대한 설명과 해석이 중요할 때 사용
(장점)
1. 해석 용이성
2. 확률 추정
3. 유연성
(한계점)
1. 상관관계가 높거나 중요하지 않는 특성이 있으면 모델 성능이 저하될 확률 높음
2. 특성 수가 많아지거나 복잡한 모델일 경우 과적합 발생 가능 높음
3. 복잡한 비선형 관계를 모델링 하려면 추가 기법 필요 -> why? 로지스틱 회귀 = 선형 관계
{우도_Likelihood}
: 주어진 모델의 매개변수에서 관측된 데이터가 나타날 확률 의미
: 로지스틱 회귀에서는 나타날 확률를 수치적으로 나타냄
'📁 ETC > 혼공머신' 카테고리의 다른 글
| REVIEW) 회귀 알고리즘과 모델 규제 (1) | 2024.03.22 |
|---|---|
| REVIEW) 데이터 전처리_표준점수 (1) | 2024.03.18 |
| REVIEW) Numpy_넘파이 (0) | 2024.03.17 |
| REVIEW) KNN (0) | 2024.03.16 |