본문 바로가기

Python12

[Python]Human Activity Recognition Using by "Decision Tree" 이번 포스팅에서는 스마트폰으로 사람의 움직임을 측정해 담은 데이터셋을 의사결정나무를 통해서 분류해보도록 하겠습니다. 먼저 필요한 모듈들을 임포트 해주도록 하겠습니다. from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import train_test_split from sklearn.tree import export_graphviz from sklearn.tree import DecisionTreeClassifier from sklearn.metrics import accuracy_score import seaborn as sns import pandas as pd import matplotlib as plt impor.. 2022. 3. 17.
[Python]Data Preprocessing & Encoding (데이터 전처리 인코딩 & 데이터스케일링) 사이킷런에서 알고리즘을 구현할때 문자열 값을 이용하여 알고리즘을 생성 할 수 없기 때문에 모든 문자열의 변수들은 인코딩하여 숫자형으로 사용하여야 합니다. 사이킷런에서 레이블 인코딩은 LableEncoder()를 이용하여 구현합니다. fit()과 transform()이용 하여 인코딩을 수행 할 수 있습니다. from sklearn.preprocessing import LabelEncoder cars = ['소나타','람보르기니','아반떼','테슬라','테슬라','그랜져','그랜져'] encoder = LabelEncoder() encoder.fit(cars) labels = encoder.transform(cars) print('인코딩 변환값 : ', labels) # 데이터가 작은경우 직관적으로 볼수있어.. 2022. 3. 15.
[Python]Cross Validation & GridSearchCV (교차검증, 하이퍼파라미터 튜닝) Sklearn에는 교차검증을 쉽게 할 수있는 API가 존재합니다. 기존에는 폴드 세트를 설정해주고, for루프에서 반복으로 학습, 테스트 데이터의 인덱스를 추출하고, 반복적으로 예측을 수행하고 예측성능을 확인하였지만 사이킷런에서는 이모든 것을 한번에 처리 할 수 있는 API가 존재합니다. import numpy as np from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import cross_val_score,cross_validate from sklearn.datasets import load_iris 우선 위의 모듈들을 import 하겠습니다. 데이터는 R에서 자주 사용하던 iris데이터를 이용하기 위하여 skl.. 2022. 3. 15.
sklearn을 이용하여 데이터 분석하기 - Pandas 저번 사이킷런 포스팅에서는 넘파이를 이용하여 자료를 핸들링하였는데 이번에는 많이 사용하게될 판다스 패키지를 이용하여 핸들링을 해보겠습니다. 이번에는 직접 데이터셋을 이용하여 핸들링 해보겠습니다. 사용되는 데이터는 타이타닉 데이터입니다. 아래 링크를통해 다운로드를 할수 있습니다. kaggle.com/c/titanic/data 이제 데이터셋이 준비가 완료 됬으니 직접 파이썬에서 구현해보겠습니다. import os import pandas as pd os.getcwd() os.chdir('/Users/sik/Desktop/CSV') # 판다스를 이용하여 데이터 프레임 생성 csv 말고 다른 파일도 로딩가능 # 판다스는 기본적으로 ndarray 의 값을 가지고 있음 titan_df = pd.read_csv("t.. 2022. 3. 8.