전체 글 97

🏦 정기 예금 가입 여부 예측 | 3️⃣ 비즈니스 전략 제안

✒️ 문제 정의은행은 마케팅 캠페인을 통해 정기 예금 가입을 유도하지만, 전체 고객 중 실제로 가입하는 비율은 매우 낮은 편이다. 비효율적인 마케팅은 비용 증가, 고객 이탈, 낮은 ROI로 이어지며, 이를 해결하기 위해 머신러닝 모델을 사용하여 고객의 예금 가입 가능성을 예측하고, 이를 바탕으로 타겟 마케팅 전략을 생각해봤다. ✒️ 비즈니스 전략(타겟 마케팅 전략)- XGBoost 모델을 기반으로 가입 확률이 높은 고객군을 선별- 마케팅 예산을 가입 확률이 높은 고객군에게 집중 투입 (예: 더 많은 콜 횟수, 맞춤형 메시지, 프로모션) (세분화된 고객 분석)- 연령대별, 직업군별, 과거 캠페인 반응별로 가입 확률 높은 세그먼트 분석- 예: 학생 + 20대 + 과거 캠페인 응답 경험 있음 → 높은 가입..

🏦 정기 예금 가입 여부 예측 | 2️⃣ 모델링

☑️ 데이터 분리: 모델 학습에 사용할 컬럼 선택 / 입력 변수, 출력 변수 분리 / Train, Test 데이터 분할☑️ 라벨 인코딩: 범주형 데이터 라벨 인코딩하기 (범주형 → 수치형)☑️ 트리 모델(Decision Tree_결정트리 모델)- 모델이 하나의 변수(nr.employed)에 과도하게 의존한다.- 'euribor3m', 'emp.var.rate', 'previous', 'campaign' 등은 거의 쓰이지 않았고, 이들을 제거해도 성능 변화가 없을 수 있다.- 의사결정 트리의 단점이 드러남. → 하나의 피처에 지나치게 의존해 분기가 단순해졌다.- 가장 중요한 feature = nr.employed(고용된 사람 수) → (0.8) : 모델이 대부분 이 변수 하나만으로 예측 가능하다.- ..

🏦 정기 예금 가입 여부 예측 | 1️⃣ EDA

👀 INTRO목표: 가장 정확한 분류 모델을 개발하여 고객이 정기 예금을 가입할지 여부를 예측하고, 그 모델을 통해 도출한 인사이트를 바탕으로 비즈니스 전략을 제시하는 것이 이번 프로젝트의 목표이다. 데이터 소개: UC Irvine Machine Learning Repository에서 제공하는 Bank Marketing 데이터: 이 데이터는 2008년부터 2010년까지의 은행 마케팅 캠페인 데이터를 포함하고 있다.컬럼명설명age나이 (숫자)job직업 (범주형)marital결혼 여부 (범주형)education교육 수준 (범주형)default신용 불량 여부 (범주형)housing주택 대출 여부 (범주형)loan개인 대출 여부 (범주형)contact연락 유형 (범주형)month마지막 연락 월 (범주형)day..

🚲 공유 자전거 수요 예측 | 3️⃣ 비즈니스 모델 제안

✒️ 문제 정의도시화가 가속되면서 도심 교통 혼잡, 환경 오염, 교통 소외 지역 증가는 지속적인 문제로 남아있다. 그 대안으로 떠오른 것이 공유 자전거이다. 하지만 아직도 우리는 "어디에 얼마나 배치해야 할까?", "어떻게 하면 더 많은 사람이 탈까?" 같은 문제에 명확한 해답을 찾지 못하고 있다. 이러한 문제를 해결하기 위해, AI 기반 수요 예측 모델을 중심으로 한 비즈니스 모델을 구상해봤다. ✒️ 서비스 개요이 비즈니스 모델은 도시 내 공유 자전거 수요 데이터를 수집하고, 머신러닝 기반 수요 예측, 최적 경로 설계, 이벤트 마케팅, 친환경 인센티브까지 결합한 올인원 AI 운영 플랫폼이다. ✒️ 중요 포인트(AI 수요 예측 대시보드)- 날씨, 시간, 요일, 이벤트 정보를 반영한 머신러닝 기반 수요 예..

🚲 공유 자전거 수요 예측 | 2️⃣ 모델링

🔧 모델링 - 데이터 생성 / 인코딩(예측 모델링에 사용할 컬럼들을 설정하여 새로운 데이터프레임 생성) (컬럼별로 unique값 확인하기) (원-핫 인코딩_One-Hot Encoding) : 머신러닝 알고리즘은 숫자 데이터만 처리할 수 있기에 원-핫 인코딩(One-Hot Encoding)을 해야 한다. 또한 원-핫 인코딩은 범주형 데이터를 효과적으로 변환하는 방법이기도 하다. 이는 머신러닝 모델의 정확도를 높이고 학습 효율성을 향상시키는 중요한 전처리 과정이다.🔧 모델링 - 데이터 분리 / 스케일링(독립변수(X)와 종속 변수(y) 분리)- X : 10886개의 샘플 개수 / 47개의 특성(2D)- y : 10886개의 샘플 개수(1D) (스케일링): 표준화는 sklearn.preprocessing..

🚲 공유 자전거 수요 예측 | 1️⃣ EDA

👀 INTRO배경 :자전거 공유 시스템은 도시에서 효율적이고 친환경적인 교통수단을 제공하며, 대여 수요 예 측은 차량 관리와 사용자 경험 향상에 필수적이다. 이 프로젝트는 과거 대여 데이터를 기반으 로 다양한 환경적 및 시간적 요인을 고려하여 자전거 대여 수를 예측하는 모델을 구축하게 되 었다. 목적 : 목표는 머신러닝 기법을 사용하여 시간대별 총 자전거 대여 수(count)를 예측하는 것이다. 데이터셋에는 날씨 조건, 계절성, 사용자 유형 등 대여 수요에 영향을 미치는 다양한 요인이 포함되어 있다. 이 데이터를 활용하여 보이지 않는 테스트 데이터에 잘 일반화할 수 있는 견고한 모델을 구축하는 것을 목표로 한다. 데이터 설명 : 컬럼명데이터 타입설명datetimedatetime자전거 대여 기록의 날짜 ..

딥러닝의 성능 향상을 위한 하이퍼파라미터 종류

하이퍼파라미터란?: 학습에 의해 조정되는 모델 내부의 파라미터와 구분하여 딥러닝을 위해 개발자가 설정하는 값들을 말한다.: 모델의 종류에 따라 다양한 파라미터가 존재 [학습 관련 하이퍼파라미터](Learning rate_학습률): 인공 신경망과 같은 기계 학습 모델이 얼마나 빠르게 학습하는지를 결정하는 하이퍼파라미터 (가중치를 업데이트할 때 얼마만큼 이동할지를 결정하는 값): 최적화 알고리듬에서 손실 함수의 최소값을 찾아가는 과정에서 각 반복(iteration) 당 이동하는 걸음의 크기를 조정: 너무 크면 손실 함수의 최적점을 지나쳐 발산하거나 불안정해지고, 너무 작으면 수렴이 느려져 학습 시간이 길어지고 최적점에 도달하지 못할 수 있음. (Batch Size_배치 크기): 한 번의 파라미터 업데이트에 ..

회귀 모델 | 로지스틱 회귀_Logistic Regression

로지스틱 회귀(Logistic Regression): 이름은 ‘회귀’지만 실제로는 이진 분류(Binary Classification)를 위한 모델 로지스틱 회귀는 입력값의 선형 조합을 통해 두 클래스 중 하나를 예측하는 분류 모델이다.선형 회귀와 비슷하게 가중치와 편향을 학습하지만, 출력값을 확률로 변환하기 위해 시그모이드 함수(sigmoid function)를 사용한다.결과적으로 예측값은 0과 1 사이의 확률로 나타나며, 일반적으로 0.5를 기준으로 클래스 0 또는 1로 분류한다. 그렇다면 로지스틱 회귀는 왜 선형 모델일까?: 로지스틱 회귀는 시그모이드를 쓰지만, 결정 경계((w^T)*x+b=0)는 여전히 선형이기에 선형 모델로 분류되고, 해석이 직관적이고 설명하기 쉬운 장점을 가지고 있다. 언제 사용..