앙상블학습과 배깅

머신러닝

앙상블학습과 배깅

주영 🐱 2022. 12. 9. 12:18

728x90

앙상블 학습은 다양한 예측기를 결합해 학습하는 것입니다. 앙상블의 방법 중 하나는 훈련셋으로부터 무작위로 다른 서브셋을 만들어 일련의 결정트리 분류기를 훈련시킬 수 있습니다. 예측을 하려면 모든 개별트리의 예측을 구하고 가장 많은선택을 받은 클래스를 예측으로 삼습니다voting. 결정 트리의 앙상블은 랜덤포레스트입니다. 앙상블 방법은 훨씬 더 높은 정확도를 낼 수 있습니다.

배깅 훈련셋에서 중복을 허용하여 샘플링하는 방식

페이스팅 훈련셋에서 중복을 허용하지 않고 샘플링하는 방식

두 방법 모두 같은 훈련샘플을 여러 예측기에 걸쳐 사용할 수 있지만 배깅만이 한 예측기를 위해 같은 훈련샘플을 여러 번 샘플링할 수 있습니다.

부트스트랩(bootstrap)

부트스트랩(bootstrap)은 통계학에서 사용하는 용어로, random sampling을 적용하는 방법을 일컫는 말입니다. 예를 들어, 한 식자재마트에 들어오는 상추의 신선도를 알고 싶은 경우, 마트로 입고되는 모든 상추 중 임의로 100개를 뽑아 그 상추의 신선도 평균을 구하는게 되겠습니다. 이게 무슨 의미가 있을까요? 바로 raw data의 분포를 추정할 때 사용할 수 있습니다. 예를 들어, 측정된 데이터 중에서 중복을 허용한 복원 추출로 n개를 뽑고, 뽑은 n개의 평균을 구하는 것을 m번 반복하여 모으게 되면 평균에 대한 분포를 구할 수 있게 되고, 이로부터 sample mean에 대한 신뢰 구간을 추정할 수 있게 되는 겁니다.

이러한 부트스트랩은, 머신러닝에서도 적용될 수 있는데요. 바로 random sampling을 통해 training data를 늘릴 수 있습니다.

즉, 배깅(Bagging)은 부트스트랩(bootstrap)을 집계(Aggregating)하여 학습 데이터가 충분하지 않더라도 충분한 학습효과를 주어 높은 bias의 underfitting 문제나, 높은 variance로 인한 overfitting 문제를 해결하는데 도움을 줍니다.(출처:https://data-analysis-science.tistory.com/61)

사이킷런에서 배깅과 페이스팅

BaggindClassifier BaggingRegressor가 있으며, 페이스팅은 bootstrap=False로 설정하면 된다

from sklearn.ensemnle import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier

baggingClf = BaggingClassifier(
	DecisionTreeClassifier(), n+estimators=500. max_samples=100, bootstrap=True, n_jobs=-1
   )
 baggingClf.fit(X_train, y_train)
 y-pred =baggingClf.predict(X_test)

전반적으로 배깅이 더 좋은 결과를 만들기때문에 선호하지만, 여유가 있다면 교차검증으로 두 방법을 모두 써본 뒤 선택하는 것이 좋다.

oob평가(out-of-bag)

배깅을 사용하면 중복을 허용하기 때문에 어떤 샘플은 선택되어 여러번 샘플링되고, 어떤 것은 전혀 선택되지 않을 수 있다. 선택되지 않은 샘플을 oob 샘플이라 한다. 예측기가 훈련되는 동안에 별도의 검증 세트가 아닌 oob샘플로 평가할 수 있다. 전의 코드에 파라미터를 oob_score=True 로 넣고 , fit 한 뒤 clf.oob_score_ 로 평가 점수를 볼 수 있다. 앙상블 평가는 각 예측기의 oob 평가를 평균하여 얻는다. 이 점수는 정확도와 거의 비슷하다.

저작자표시 비영리 변경금지

'머신러닝' 카테고리의 다른 글

부스팅 AdaBoost, gradient boosting, XGBoost (0)	2022.12.09
python numpy, pandas 라이브러리란, 차이 (0)	2022.12.08
비지도학습 - 군집, k-means, 실루엣점수 사이킷런 (0)	2022.12.07
머신러닝 분류 성능 측정 (0)	2022.12.06
차원 축소, PCA python 사이킷런 (0)	2022.12.05

현재글앙상블학습과 배깅

TIL

오픽1주, 1인개발마케팅, 배당투자, 배당투자계산기, 딥러닝, 티스토리챌린지, 오픽AL, 오블완, 마케팅, 오픽 AL, 오픽 모의테스트, 안드로이드개발, 오픽, 오픽모의고사, 오픽공부법, 특수문자이모티콘, 1인개발자, 오픽기출, 오픽IH, 1인개발,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

TIL