분류 전체보기74 분산과 편향 차이 이해하기 (bias vs variance) 편향-분산 트레이드오프(bias-variance trade-off)는 지도학습에서 에러를 처리할 때 중요하게 생각하는 요소인만큼 종종 헷갈리는 개념인 bias와 variance에 대해 다루어보려 한다. Notation $f(x), \hat{f}(x), E[\hat{f}(x)]$의 뜻에 대해 알아보자. $f(x)$ : 입력 데이터 $x$에 대한 실제 target 값 $\hat{f}(x)$ : 머신러닝 모델의 output, prediction value. 모델의 파라미터에 따라 다양한 값들을 출력할 수 있음 $E[\hat{f}(x)]$ : $\hat{f}(x)$의 기댓값 = 대표 예측값 Bias vs Variance 편향(bias) : 예측값과 실제 정답과 차이의 평균 예측이 정답에서 얼마나 떨어져 있는지를.. 2022. 4. 4. 선형회귀(Linear Regression), Lasso, Ridge 이해하기 선형회귀(Linear Regression) 단순 선형 회귀(simple linear regression) : $\hat{y} = W x + b$ 다중 선형 회귀(multiple linear regression) : $\hat{y} = \Sigma_{i=1}^n W_i x_i + b$ lasso와 ridge는 선형 회귀의 단점으 보완해 범용성(generization)을 제공한다. 선형회귀 최적화 평균 제곱 오차(Mean Squared Error, MSE) loss function 다중 회귀 모형은 과적합(overfitting) 되는 경향이 존재한다 -> 일반화 능력이 떨어짐, test 데이터에 대한 예측 성능이 하락함 => Lasso, Ridge 사용 underfitted vs good fit(robust.. 2022. 3. 31. [Pytorch] Freeze Network: no_grad, requires_grad 차이 블로그 글을 많은 부분 참고했다. [PyTorch] Freeze Network: no_grad, requires_grad 차이 모델 Freeze 하는 방법에 대해 정리한 글입니다. nuguziii.github.io 모델 Freeze 하는 방법에 대해 정리한 글이다. ULMFiT, Adapter, P-tuning 등의 architechture에서 처럼 일부 모델을 freeze 시키고 다른 모델의 일부에 대해서만 paramter update를 하고싶은 경우가 있다. 대표적으로 transfer learning이나 generative adversarial network의 경우가 있다. 이럴 경우에 파이토치에서 사용하는 no_grad 와 requires_grad 에 대한 차이점을 기록한다. 첫번째 경우, 위 그림.. 2022. 3. 14. Encoders and Ensembles for Task-Free Continual Learning 리뷰 1. Introduction •Supervised Learning : data가 i.i.d.(identically and independently distributed)이며 고정된 분포로 부터 추출된다 가정 •Continual Learning : 현실적엔 시나리오(데이터 real time)에 대처하는 것을 연구 •주요 문제점 : catastrophic forgetting Catastrophic Forgetting Catastrophic forgetting 새로운 data를 학습함에 따라 이전 data들에 대한 모델의 성능이 저하 되는 것 특히 신경망은 gradient-based로 가중치가 update되기 때문에 이 문제에 취약 Data가 imbalance할 경우 오랫동안 특정 class에 대해 weigh.. 2022. 3. 11. 이전 1 ··· 12 13 14 15 16 17 18 19 다음