Python/Sklearn9 [Python]Santander Customer Satisfaction by XGBoost XGBoost를 이용하여 kaggle의 데이터셋인 산탄데르 은행의 만족도를 바탕으로 예측을 진행해 보도록 하겠습니다. 이용되는 패키지는 다음과 같습니다. 클래스 테이블명은 TARGET이고, 이 값이 1을 가지면 불만족을 가진 고객, 0을가지면 만족한 고객으로 예측이 진행 됩니다. 모델의 성능평가는 대부분 만족인 고객일 것이고, 소수만 불만족일 것 이기 때문에 ROC-AUC커브를 이용하여 성능 평가를 진행 하도록 하겠습니다. cust_df = pd.read_csv("/Users/sik/Desktop/santander/train_santander.csv",encoding='latin-1') print('dataset shape:', cust_df.shape) cust_df.head(3) cust_df.inf.. 2022. 4. 7. [Python]Ensmeble "lightgbm" ligthgbm은 현재 xgboost와 함께 부스팅계열에서 많이 사용되는 알고리즘 입니다. xgboost는 성능이 좋긴하지만 꽤 오랜 시간이 걸린다는 단점이 있습니다. 하지만 lightgbm은 메모리를 적게 쓰는것 뿐만 아니라 시간단축에서 효율적인 모습을 보여줍니다. 이런 lightgbm에 단점이 없는 것은 아닙니다. 적은 데이터 셋의 경우는 과적합이 발생하기 쉽다는 단점이 있습니다. from lightgbm import LGBMClassifier import pandas as pd import numpy as np from sklearn.datasets import load_breast_cancer from sklearn.model_selection import train_test_split from .. 2022. 3. 25. [Python] Ensemble "RandomForest" 이번 포스팅에서는 앙상블 기법중 하나인 랜덤 포레스트를 다뤄보도록 하겠습니다. 랜덤포레스트는 배깅에 속하는데 이는 여러개의 분류기를 만들어서 보팅으로 최종 결정하는 알고리즘 입니다. 랜덤포레스트의 기반은 의사결정나무(Decision Tree)이며 쉽고 직관적이라는 장점이 있습니다. 이번 포스팅에서 사용하는 데이터는 Human Activity Recognition Using 입니다. UCI에가면 쉽게 다운로드 할 수 있습니다. 사용되는 모듈은 다음과 같습니다. from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import accuracy_score import pandas as pd import warnings import p.. 2022. 3. 18. [Python]Ensemble "Voting" 앙상블 학습은 약한분류기를 생성하고 그 예측을 결합하여 정확한 최종 예측을 도출하는 기법을 말합니다. 앙상블 학습 유형은 크게 보팅, 배깅, 부스팅으로 나눌수 있습니다. 이번포스팅에서는 앙상블 기법중 하나인 보팅기법에 대해 포스팅 하려고 합니다. 보팅 방법에는 하드보팅과 소프트보팅이 있습니다. 일반적으로 하드보팅보다는 소프트보팅이 예측 성능이 좋아서 많이 쓰이기 때문에 이번포스팅에서는 소프트 보팅을 이용해 보도록 하겠습니다. 우선 모듈들을 import 해줍니다. import pandas as pd from sklearn.ensemble import VotingClassifier from sklearn.linear_model import LogisticRegression from sklearn.neighb.. 2022. 3. 17. 이전 1 2 3 다음