본문 바로가기

R/Machine-Learning8

R을 이용한 머신러닝 알고리즘 -회귀분석- 회귀분석은 하나의 종속변수를 가지고 하나의 독립변수를 가지는 것을 단순 회귀분석이라고 하고, 하나의 종속변수를 가지고 여러개의 독립변수를 가지는 것을 다중 회귀 분석이라고 합니다. 회귀모형을 생성하고 평가는 잔차 검정을 통해 하게 됩니다. 사용되는 패키지는 다음과 같습니다. install.packages('lmtest') library(lmtest) lmtest는 검정을 위해 사용되는 패키지입니다. 선형회귀 함수인 lm()의 경우 내장되어있으므로 따로 패키지를 설치할 필요가 없습니다. 이제 회귀식을 만들기전에 전제조건인 공선성이 위배되는지 먼저 확인을 해보겠습니다. model vif(model) Sepal.Width Petal.Length Petal.Width 1.270815 15.097572 14.23.. 2022. 3. 12.
R을 이용한 머신러닝 알고리즘 -인공신경망- 신경망은 인간이 가진 생물학적 특징인 뉴런을 의미합니다. 이러한 신경망모양을 본떠 만든 것을 인공 신경망이라고 합니다. 이러한 신경망 구조를 3개 이상 가진것을 딥러닝이라고 합니다. 우선 R에서 인공신경망을 사용하기 위해서 패키지 설치를 해보도록 하겠습니다. 코드는 다음과 같습니다. install.packages('nnet') library(nnet) 데이터는 내장 데이터셋인 iris데이터를 사용 하도록 하겠습니다. data(iris) idx = sample(1:nrow(iris), 0.7*nrow(iris)) training = iris[idx,] testing = iris[-idx,] nrow(training); nrow(testing) train셋의 비율은 70% test셋의 비율은 30%로 지정해.. 2022. 3. 12.
R을 이용한 머신러닝 알고리즘 -부스팅- 부스팅은 가중치를 활용해서 약한 분류를 강한 분류기로 만들어 주는 기법입니다. 배깅은 의사결정나무1과 의사결정나무2가 서로 독립적으로 결과를 예측합니다. 여러개의 트리가 각각 값을 예측하지만 최종결과값을 예측합니다. 여기서 부스팅은 각각의 트리에서 서로의 가중치를 공유하게 됩니다. 처음 트리가 예측하면 그 예측에 따라 가중치가 발생이되고 부여된 가중치가 다음 트리에 영향을 줍니다. 부스팅의 단점에는 오버피팅일 될수 있다는 단점이있습니다. 부스팅의 코드는 다음과 같습니다. library(adabag) data(iris) boostadabag 2022. 3. 12.
R을 이용한 머신러닝 알고리즘 -배깅- 배깅은 데이터에서 여러번 샘플을 뽑아 모델을 학습시켜 결과물을 추출하는 것을 말합니다. 여러번 샘플을 뽑는 것을 bootstrap이라고 합니다. 배깅을 활용한 모델이 바로 랜덤 포레스트 입니다. 배깅에 사용될 패키지는 다음과 같습니다. install.packages('adabag') library(adabag) 배깅을 위해서 adabag이라는 패키지를 설치하고 라이브러리해줍니다. 랜덤포레스트와 동일하게 데이터는 내장데이터 셋인 아이리스 데이터 셋을 이용하겠습니다. 데이터를 로드하고 배깅 모델을 생성하겠습니다. data(iris) iris.bagging 2022. 3. 12.