전체 글74 Transformers 가족 (BERT vs GPT vs GPT2) Transformers 가족 BERT 언어모델?(Language Model, LM) 언어들의 시퀀스에 대한 확률분포 비지도 학습 bidirectional MLM NSP [CLS] [SEP] fine-tuning 시 pre-train한 모델과 weight를 동일하게 사용 GPT 비지도 학습 MLM, NSP X → 전통적 언어 모델링(AR, Autoregressive 방식) BERT와의 차이점 실제 문제를 대상으로 학습을 진행할 때도 언오 모델을 함께 학습한다. 손실함수 loss가 2개 : 실제 학습 손실값 ($loss_1$) + 언어모델 손실값($loss_2$) 본 학습 문제에 특화된 입력값을 사용 다른 pre-train dataset GPT2 Layer Normalization의 위치 이동 다양한 영역의.. 2021. 6. 1. DTW (Dynamic time warping) DTW (Dynamic time warping) 란? 시계열 분석에서 Dynamic time warping(DTW)은 속도에서 달라질 수 있는 두 시간적 시퀀스 사이의 유사성을 측정하기 위한 알고리즘 중 하나이다. 예를들어, 한 사람이 다른 사람보다 더 빨리 걷거나 관찰 과정에서 가속과 감속이 있더라도 DTW를 사용하여 보행의 유사성을 감지할 수 있었다. 실제로, 선형 시퀀스로 변환될 수 있는 모든 데이터는 DTW로 분석할 수 있다. 잘 알려진 응용 프로그램은 다양한 말하기 속도에 대처하기 위한 자동 음성 인식(automatic speech recognition)이다. 다른 응용 프로그램에는 스피커 인식(speaker recognition)과 온라인 서명 인식(signature recognition)이 .. 2021. 5. 30. 이전 1 ··· 16 17 18 19 다음