Deep Learning/Natural Language Processing6 XML, Cross-lingual Language Model Pretraining 리뷰 Abstract 최근 English Natural Language Understanding(NLU)를 위한 pre-train의 효율성을 입증. ⇒ 본 연구에서는 영어에서 더 나아가 다국어로 확장하고, cross-lingual pre-training의 효과 cross-lingual language models (XLMs) 학습 방법 monolingual - unsupervised learning cross-lingual - supervised learning (parallel data 사용) → cross-lingual classification, unsupervised, supervised 기계 번역에 대해 SOTA 달성 performance XNLI에서 4.9% absolute accuracy unsu.. 2022. 2. 22. Transformers 가족 (BERT vs GPT vs GPT2) Transformers 가족 BERT 언어모델?(Language Model, LM) 언어들의 시퀀스에 대한 확률분포 비지도 학습 bidirectional MLM NSP [CLS] [SEP] fine-tuning 시 pre-train한 모델과 weight를 동일하게 사용 GPT 비지도 학습 MLM, NSP X → 전통적 언어 모델링(AR, Autoregressive 방식) BERT와의 차이점 실제 문제를 대상으로 학습을 진행할 때도 언오 모델을 함께 학습한다. 손실함수 loss가 2개 : 실제 학습 손실값 ($loss_1$) + 언어모델 손실값($loss_2$) 본 학습 문제에 특화된 입력값을 사용 다른 pre-train dataset GPT2 Layer Normalization의 위치 이동 다양한 영역의.. 2021. 6. 1. 이전 1 2 다음