본문 바로가기

Machine Learning10

클러스터링 평가 지표(Clustering Evaluation Metrics) 지도학습 -> labeled data 비지도 학습 -> unlabeled data를 통한 학습, e.g. clustering, constrative learning 비지도학습의 핵심은 알고리즘의 성능을 올바르게 측정하는 것. Clustering 평가 지표 1. Silhouette Score Silhouette score는 군잡 간 separation distance를 측정하는데 사용한다. 즉, 군집의 각 점이 인접한 군집의 점에 얼마나 가까운지 나타내는 측도를 표시한다. 측정값의 범위는 [-1, 1]이며 "similarities within clusters and differences across clusters"를 시각적으로 표현 가능하다. 실루엣 점수는 각 표본의 mean intra-cluster d.. 2022. 9. 19.
부스팅 앙상블 (Boosting Ensemble): AdaBoost Taeyang Yang님의 블로그 와 StatQuest의 유튜브 를 참조하였다. AdaBoost AdaBoost(Adaptive Boosting)는 다양한 크기의 Stump로 이루어진 숲이다. 3 Concepts of AdaBoost Forest of stumps : weak learner로 구성된 숲 Different weights for each stump : Amount of Say의 양 Sequential : 각 stump의 에러가 다음 stump의 에러에 영향을 미친다. 1. Forest of stumps random forest에서는 개별 모델로 decision tree를 사용하는데 비해,AdaBoost에서는 개별 모델로 Stump 를 사용한다. Stump란 한 노드와 두 개의 가지를 갖는 d.. 2022. 4. 5.
배깅 앙상블 (Bagging Ensemble): Random Forest 앙상블(Ensemble) 방법 중 배깅(Bagging)의 대표적인 예시인 Random Forest 알고리즘에 대해 정리한다. Random Forest 여러 개의 Decision tree들이 모여서 숲을 이룬다는 의미에서 Forest라고 부른다. 각 트리는 비교적 예측을 잘 할 수 있지만, 데이터의 일부에 대해 과대적합 하는 경향을 가진다는데 기초한다. 따라서 각 트리를 많이 만들어 그 결과를 평균내어 과대적합을 방지할 수 있다. 학습 방법 Bootstrap 주어진 데이터셋으로부터 random sampling을 통해 각 decision tree를 만들기 위한 subset 생성 (중복 허용) Decision Tree Bootstrap을 통해 생성된 각각의 데이터셋에 대한 Decision tree들을 구성 E.. 2022. 4. 4.
앙상블 (Ensemble)의 개념 이 전 포스팅에서는 의사결정 나무의 여러 알고리즘을 정리하며 단점으로 과적합을 꼽았다. 과적합을 해결하기 위한 여러 방법 중 하나인 앙상블(Ensemble) 알고리즘을 설명하고 그 종류에 대해 알아보자. 앙상블(Ensemble) 앙상블은 여러가지 우수한 학습 모델을 조합해 예측력을 향상시키는 모델 장점: 단일 모델에 비해 분류 성능이 우수하다. 단점: 모델의 결과 해석이 어렵고, 예측 시간이 오래 소요된다. 많은 모델이 있기 때문에, 한 모델이 예측을 엇나가게 하더라도 어느 정도 보정이 되는 것이 장점이다. 즉, 보다 일반화(Generalized)된 모델이 만들어 지는 것이다. 단일모델로는 Decision tree, svm, deep learning model 등 모든 종류의 학습 모델이 사용될 수 있다.. 2022. 4. 4.