전체 글 97

데이터 전처리 : 결측값, 중복값, 이상치

결측값 (Missing Values): 데이터셋에서 값이 비어 있는 경우를 말합니다. 예를 들어, 설문조사에서 일부 응답자가 나이를 입력하지 않았다면, 그 부분이 결측값이 됩니다.✔️ 처리 방법삭제(Drop) → dropna()대체(Imputation) → fillna()예측 기반 채우기 (ML 활용) 중복값 (Duplicate Values): 데이터셋에서 같은 데이터가 여러 번 반복되는 경우를 말합니다.✔️ 처리 방법중복값 확인 → duplicated()중복값 제거 → drop_duplicates() 이상치 (Outliers): 다른 데이터와 비교했을 때 너무 크거나 작은 값으로, 분석에 방해가 될 수 있는 값입니다.✔️ 탐지 방법통계적 방법 (IQR, 표준편차 사용)시각적 방법 (박스플롯, 히스토그램..

EDA(Exploratory Data Analysis)란?

EDA란?EDA(탐색적 데이터 분석)는 데이터를 본격적으로 분석하기 전에 데이터의 구조와 특성을 파악하는 과정입니다. 쉽게 말해, 데이터를 처음 접했을 때 "이 데이터는 어떻게 생겼을까?"를 탐색하는 단계라고 볼 수 있습니다.EDA가 필요한 이유EDA는 데이터 분석에서 매우 중요한 과정인데, 그 이유는 다음과 같습니다.모델 성능 향상:데이터 정제:데이터 분포 확인:데이터 전처리 방법 결정:"쓰레기를 넣으면 쓰레기가 나온다(Garbage in, Garbage out)." → 좋은 모델을 만들려면 먼저 좋은 데이터를 준비해야 한다! EDA 주요 단계1. 전체적인 데이터 분석: 분석 목적에 적합한 변수와 데이터형 파악, 데이터의 오류나 누락 여부 확인, 각 속성값이 예상된 범위와 분포를 보이는지 검토 (예상과..

🏨 호텔 예약 정보 데이터셋 분석 | 2️⃣ 상관관계 분석

👀 INTRO데이터셋 개요 : 호텔 예약 정보를 포함한 데이터셋목적 : 예약 취소율에 영향을 미치는 주요 요인을 분석  1️⃣ 'is_canceled'과의 상관관계: is_canceled과의 상관관계만 집중적으로 분석하기 위해 전체 상관관계가 아닌 특정 변수(is_canceled)만 추출.: 내림차순 정렬을 통해 어떤 변수가 가장 큰 영향을 주는지 한눈에 파악 가능. 2️⃣ Point-Biserial 상관계수 이용: Point-Biserial 상관계수를 사용한 이유는 이진 변수(is_canceled)와 연속형 변수(lead_time, total_of_special_requests 등) 사이의 상관관계를 정확하게 측정하고 해석하기 위해서 Point-Biserial 상관계수를 선택하였다. # 'is_can..

🏨 호텔 예약 정보 데이터셋 분석 | 1️⃣ 데이터 전처리

👀 INTRO데이터셋 개요 : 호텔 예약 정보를 포함한 데이터셋목적 : 예약 취소율에 영향을 미치는 주요 요인을 분석 1️⃣ 데이터 확인# 기본 라이브러리 불러오기# 컬럼 설명hotel : 호텔명(Resort Hotel 혹은 City Hotel)is_canceled : 호텔 예약이 취소되었는지(1) 혹은 취소 되지 않았는지(0)를 나타내는 값lead_time : 호텔 예약 시점부터 고객의 호텔 도착 시점까지의 기간(단위 : 날짜)arrival_date_year : 고객의 호텔 도착 (연도)arrival_date_month : 고객의 호텔 도착 (월)arrival_date_week_number : 고객의 호텔 도착(주)arrival_date_day_of_month : 고객의 호텔 도착 (일)stays_..

선형대수학이란 무엇이며, 왜 머신러닝/딥러닝에 필요한가?

선형대수학이란?선형대수학은 벡터와 행렬을 중심으로 수학적 개념을 연구하는 분야입니다. 쉽게 말해, 숫자로 이루어진 데이터들을 다루고 변형하는 방법을 배우는 학문입니다.머신러닝/딥러닝에서 선형대수학이 중요한 이유머신러닝과 딥러닝에서는 데이터를 숫자로 변환해 컴퓨터가 이해할 수 있도록 만들어야 합니다. 이 과정에서 선형대수학은 다음과 같은 이유로 필수적입니다.데이터 표현:우리가 다루는 데이터(이미지, 텍스트, 음성 등)는 결국 숫자로 변환되어야 합니다.사진은 픽셀 값으로 이루어진 행렬로 표현되고, 문장은 단어를 숫자로 변환한 벡터로 나타낼 수 있습니다.이미지 처리 시, 컴퓨터 비전에서 이미지 데이터는 행렬로 표현되며, 합성곱 신경망(CNN)은 행렬 연산을 활용하여 특징을 추출합니다.행렬 연산:딥러닝 모델은 ..

Python_ 실습정리(1) : 클래스와 객체

[ 클래스와 객체 ]1. 시간 추척 클래스     - 메서드와 속성 이름 동일 에러발생2. 직원 관리 시스템     - 클래스 메서드 관련 메모3. 프랜차이즈 레스토랑 예약 관리 시스템     - 데이터 유효성(시간 추적 클래스)실습 설명시간을 관리하고 추적하는 TimeTracker 클래스를 구현하는 프로젝트를 시작합니다. 시간 관리 기능은 특히 프로젝트 작업, 운동, 공부 시간 등 다양한 활동의 지속 시간을 측정하는 데 유용합니다.TimeTracker 클래스는 다음 기능을 제공해야 합니다:시작 시간 설정: 사용자가 활동을 시작할 때의 시간을 기록합니다.종료 시간 설정: 사용자가 활동을 종료할 때의 시간을 기록합니다.경과 시간 계산: 활동의 시작과 종료 사이의 시간 차이를 계산합니다.이 클래스의 인스턴스..

REVIEW) 회귀분석

[회귀 분석]: 종속변수가 독립변수에 의해 어떻게 영향을 받는지 통계적으로 알려준다.(종류)1. 단순 선형 회귀   2. 다중 선형 회귀   3. 로지스틱 회귀(WHEN)1. 적은 데이터 세트2. 간단하고 비용이 적게 드는 모델3. 데이터의 패턴을 이해하고 설명하는 것이 중요할 때4. 선형 관계가 강한 데이터일 때(한계점)1. 선형관계에만 집중2. 단순함의 한계* 선형 회귀 분석 = 독립변수 + 종속 변수 + 회귀선[단순 선형 회귀분석_Simple Linear Regression]: 한 개의 독립변수와 한 개의 종속 변수를 가지는 선형관계를 모델링함.(회귀 계수 구하는 방법 - “OLS(최소제곱법)”이용)1. 회귀 모델 정의2. 오차의 제곱합 계산3. 제곱합 최소화[다중 선형 회귀분석_ Multiple ..

범주형 변수 인코딩

(범주형 변수)1. 명목형(Nominal): 서로 비교 가능한 등급이나 순서, 크기가 의미 없는 “독립적인“ 범주들로 구성2. 순서형(Ordinal): 범주 사이에 명확한 순서가 존재하여 등급으로 나눌 수 있음”범주형 변수를 왜 인코딩해야할까?“: 머신러닝 모델들은 주로 수치형 데이터를 필요로 한다. 때문에 범주형 변수들을 모델들이 이해할 수 있는 형태로 변환(인코딩)해야함. [인코딩 종류]{sklearn의 Lable Encoding_ 레이블 인코딩}: 범주형 변수의 각 카테고리에 고유한 정수를 할당하여 모델이 이해할 수 있는 형태로 데이터를 변환한다.: 각 고유한 값에 대해서 사전식 순서에 따라 정렬한 후, 각 고유한 값에 대해 순차적인 정수 값을 할당한다.(문제점): 등급 또는 순서로서의 의미를 학습..