전체 글25 [Python]Santander Customer Satisfaction by XGBoost XGBoost를 이용하여 kaggle의 데이터셋인 산탄데르 은행의 만족도를 바탕으로 예측을 진행해 보도록 하겠습니다. 이용되는 패키지는 다음과 같습니다. 클래스 테이블명은 TARGET이고, 이 값이 1을 가지면 불만족을 가진 고객, 0을가지면 만족한 고객으로 예측이 진행 됩니다. 모델의 성능평가는 대부분 만족인 고객일 것이고, 소수만 불만족일 것 이기 때문에 ROC-AUC커브를 이용하여 성능 평가를 진행 하도록 하겠습니다. cust_df = pd.read_csv("/Users/sik/Desktop/santander/train_santander.csv",encoding='latin-1') print('dataset shape:', cust_df.shape) cust_df.head(3) cust_df.inf.. 2022. 4. 7. [Python]Ensmeble "lightgbm" ligthgbm은 현재 xgboost와 함께 부스팅계열에서 많이 사용되는 알고리즘 입니다. xgboost는 성능이 좋긴하지만 꽤 오랜 시간이 걸린다는 단점이 있습니다. 하지만 lightgbm은 메모리를 적게 쓰는것 뿐만 아니라 시간단축에서 효율적인 모습을 보여줍니다. 이런 lightgbm에 단점이 없는 것은 아닙니다. 적은 데이터 셋의 경우는 과적합이 발생하기 쉽다는 단점이 있습니다. from lightgbm import LGBMClassifier import pandas as pd import numpy as np from sklearn.datasets import load_breast_cancer from sklearn.model_selection import train_test_split from .. 2022. 3. 25. [Python]Ensmeble "XGBoost" XGBoost는 GBM과 유사한 하이퍼 파라미터를 가지고 있습니다. 또한 XGBoost는 Earlystop(조기중단)의 기능을 가지고 있어서 머신런닝의 성능이 향상되지 않는다면 도중에 중단하여 시간을 보다 단축시킬수 있는 장점이있습니다. XGBoost는 파이썬 래퍼, Sklean 래퍼 모두 사용할 수 있지만, 두개의 하이퍼 파라미터 이름에 차이가 있으니 이를 숙지해야합니다. 이번 포스팅에서는 XGBoost를 이용하기 위하여 위스콘신 유방암 데이터를 사용 하도록 하겠습니다. XGBoost를 이용하기 위해서는 먼저 XGBoost를 설치해주는 것이 필요합니다. 저는 이미 설치가 되어있기때문에 설치되었다는 문구가 출력이 됨을 볼 수 있습니다. 위처럼 conda install xgboost를 입력하여 설치 하시면.. 2022. 3. 23. [Python] Ensemble "RandomForest" 이번 포스팅에서는 앙상블 기법중 하나인 랜덤 포레스트를 다뤄보도록 하겠습니다. 랜덤포레스트는 배깅에 속하는데 이는 여러개의 분류기를 만들어서 보팅으로 최종 결정하는 알고리즘 입니다. 랜덤포레스트의 기반은 의사결정나무(Decision Tree)이며 쉽고 직관적이라는 장점이 있습니다. 이번 포스팅에서 사용하는 데이터는 Human Activity Recognition Using 입니다. UCI에가면 쉽게 다운로드 할 수 있습니다. 사용되는 모듈은 다음과 같습니다. from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import accuracy_score import pandas as pd import warnings import p.. 2022. 3. 18. 이전 1 2 3 4 ··· 7 다음