본문 바로가기

전체 글74

배깅 앙상블 (Bagging Ensemble): Random Forest 앙상블(Ensemble) 방법 중 배깅(Bagging)의 대표적인 예시인 Random Forest 알고리즘에 대해 정리한다. Random Forest 여러 개의 Decision tree들이 모여서 숲을 이룬다는 의미에서 Forest라고 부른다. 각 트리는 비교적 예측을 잘 할 수 있지만, 데이터의 일부에 대해 과대적합 하는 경향을 가진다는데 기초한다. 따라서 각 트리를 많이 만들어 그 결과를 평균내어 과대적합을 방지할 수 있다. 학습 방법 Bootstrap 주어진 데이터셋으로부터 random sampling을 통해 각 decision tree를 만들기 위한 subset 생성 (중복 허용) Decision Tree Bootstrap을 통해 생성된 각각의 데이터셋에 대한 Decision tree들을 구성 E.. 2022. 4. 4.
앙상블 (Ensemble)의 개념 이 전 포스팅에서는 의사결정 나무의 여러 알고리즘을 정리하며 단점으로 과적합을 꼽았다. 과적합을 해결하기 위한 여러 방법 중 하나인 앙상블(Ensemble) 알고리즘을 설명하고 그 종류에 대해 알아보자. 앙상블(Ensemble) 앙상블은 여러가지 우수한 학습 모델을 조합해 예측력을 향상시키는 모델 장점: 단일 모델에 비해 분류 성능이 우수하다. 단점: 모델의 결과 해석이 어렵고, 예측 시간이 오래 소요된다. 많은 모델이 있기 때문에, 한 모델이 예측을 엇나가게 하더라도 어느 정도 보정이 되는 것이 장점이다. 즉, 보다 일반화(Generalized)된 모델이 만들어 지는 것이다. 단일모델로는 Decision tree, svm, deep learning model 등 모든 종류의 학습 모델이 사용될 수 있다.. 2022. 4. 4.
의사결정 나무 (Decision Tree) ID3 알고리즘 본 포스팅에서는 기본적인 의사결정나무 알고리즘에 대한 설명은 제외하고 ID3에 대한 특이점만 다룰 것이다. Taeyang Yang님의 블로그의 글을 대부분 참조하였다. ID3 알고리즘 ID3 알고리즘은 Iterative Dichootomiser 3의 약자이다. Dichotomiser는 "이분하다"는 뜻의 프랑스어로, 반복적으로 이분하는 알고리즘이라고 할 수 있다. 이 전 포스팅에서 의사결정 나무의 분기는 불순도(impurity) 값이 작은 방향으로 이루어진다고 설명했다. ID3 알고리즘은 불순도 값으로 엔트로피(entropy)를 사용한다. 이는 독립변수가 모두 범주형일때만 가능하다는 단점이 있다. (연속형 변수도 가능하도록 발전한것이 C4.5 알고리즘이다.) ID3의 impurity : 엔트로피(Entr.. 2022. 4. 4.
의사결정나무, Decision Tree 분류(classification)과 회귀(regression)문제를 풀기 위한 다양한 종류의 머신러닝 모델이 존재한다. 이 때, 단일 모델을 사용하는 대신 여러 모델을 특정 방식으로 조합하면 성능이 더 나아지는 경우가 있다. 배깅(bagging) 부스팅(boosting) 여러 모델 중 하나의 모델을 선책해서 예측을 시행 ex) decision tree(의사결정나무) 오늘은 이 중에서 decision tree(의사결정나무)에 대해 알아볼 것이다. 모델 소개 의사결정 나무는 데이터를 분석하여 이들 사이에 존재하는 패턴을 예측 가능한 규칙들의 조합으로 나타내며, 그 모양이 '나무'와 같다고 해서 의사결정나무라 불린다. 질문을 던져서 대상을 좁혀 나가는 스무고개 놀이와 비슷한 개념이다. 초기 지점은 root n.. 2022. 4. 4.