Abstract
최근 English Natural Language Understanding(NLU)를 위한 pre-train의 효율성을 입증.
⇒ 본 연구에서는 영어에서 더 나아가 다국어로 확장하고, cross-lingual pre-training의 효과
cross-lingual language models (XLMs) 학습 방법
- monolingual - unsupervised learning
- cross-lingual - supervised learning (parallel data 사용)
→ cross-lingual classification, unsupervised, supervised 기계 번역에 대해 SOTA 달성
performance
- XNLI에서 4.9% absolute accuracy
- unsupervised machine translation
- WMT’16 German-English : 34.3 BLEU (+ 9 BLEU)
- supervised machine translation
- WMT’16 Romanian-English : 38.5 BLEU (+ 4 BLEU)
1. Introduction
sentence encoders의 generative pre-training은 수 많은 NLU 벤치마크의 개선으로 이어짐.
- Trasnformer : large unsupervised text corpus로 부터 pre-training, classification, NLU, NLI와 같은 문제들에 대해 fine-tuning
general-purpose sentence representation에 대해 관심은 많아졌지만, 본질적으로 monolingual에 대해서고, 주로 English benchamarks에 대해서만 연구가 진행 되었음.
최근 진행된 연구는 많은 언어로 된 cross-lingual sentence representations을 학습하고, 평가하며 영어 중심적인 편향을 완화하는 것을 목표로 한다. 이것은 어떤 문장을 shared embedding 공간으로 인코딩 할 수 있는 universal cross-lingual encoders를 구축할 수 있음을 시사한다.
본 연구에서는 multiple cross-lingual understanding (XLU)벤치마크에 대한 cross-lingual language model의 사전 훈련 효과를 입증한다
contribution:
- cross-lingual language modeling을 사용하여 cross-lingual representation을 학습하기 위한 새로운 비지도 학습 방법을 소개
- 두 가지 monolingual pretraining objective
- parallel data를 사용할 때, cross-lingual pretraining을 개선하는 새로운 지도학습 object
- cross-lingual classification 2) unsupervised machine translation 3) supervised translation SOTA
- cross-lingual language model이 low-resource 언어의 perplexity를 크게 개선 가능
- 코드 및 사전 교육된 모델을 공개적으로 사용 가능
2. Related Work
3. Cross-lingual language models
세 가지 언어 모델링 목표를 제시
- 2개의 monolingual - unsupervised
- 1개의 parallel - supervised
3.1 Shared sub-word vocabulary
All languages에 대해서 **Byte Pair Encoing(BPE)**을 통해 생성된 동일한 vocabulary를 공유
- digit or 고유명사와 같은 동일한 알파벳이나 anchor token(구두점) 등을 공유하게 되면서 여러 언어에 걸쳐 임베딩 공간의 정렬을 크게 개선하게 된다
- “.”의 역할: 문장의 끝 → 영어(finish) / 국어(-다)의 embedding 공간 ⇒ 관계의 유지
monolingual 말뭉치에서 무작위로 샘플링 된 문장의 연결에 대한 BPE 분할을 학습
- 위 분포를 따라 샘플링 하면 low-resource 언어와 관련된 토큰 수 가 증가하고, high-resource 언어에 대한 bias가 완화
- 특히, low-resource 언어의 단어가 character level에서 분할 되는 것을 방지
3.2 Causal Language Modeling (CLM)
- causal language modeling (CLM, 인과 언어 모델) = AR 모델(AutoRegressive, 자기 회귀)
- LSTM - back-propagation through time(BPTT)
- Transformer
- previous hidden states can be passed to the current batch to provide context to the first words in the batch.
- the first word : [CLS]
- transformer의 decoder에서 상삼각행렬을 마스킹→이전 hidden state를 현재 batch(입력 sequence)로 전달 하여 batch의 첫번째 단어 [CLS]에 context 정보를 제공
- attention score masking
- https://arxiv.org/abs/1808.04444
- 그러나, 다국어로 확장되지 않으므로 simplicity을 위해 각 batch에 첫 번째 단어를 context 없이 남겨둠
- previous hidden states can be passed to the current batch to provide context to the first words in the batch.
3.3 Masked Language Modeling (MLM)
- 전체 중 15%를 Masking
- 80% : [MASK] token으로 대체
- 10% : random 토큰
- 10% : 유지
- 본 연구와의 차이점
- 문장 pair 대신 임의의 수의 텍스트 스트림(truncated at 256 tokens) 사용
- rare and frequent (e.g.구두점, stopwords, ...) 사이의 불균형 → 빈번한 출력을 subsampling
3.4 Translation Language Modeling (TLM)
- parallel data 사용 → translation language modeling (TLM)
- MLM의 확장으로 사용 - 원문과 번역 문장을 병렬적으로 사용
- 영어 문장에서 마스킹된 단어를 예측하기 위해 모델은 주변 영어 단어 또는 프랑스어 번역에 따라 모델이 영어와 프랑스어 표현을 맞추도록 장려
- 특히, 모델은 영어 context가 마스크된 영어 단어를 추론하기에 충분하지 않은 경우 프랑스어 context를 활용할 수 있다.
- MLM의 확장으로 사용 - 원문과 번역 문장을 병렬적으로 사용
- 각 문장의 Position Embedding은 각각 문장 시작점을 ‘0’으로 함
3.5 Cross-lingual Language Models
- 3개의 방법으로 진행: CLM, MLM, MLM used in combination with TLM
- CLM, MLM - monolingual, $\{q_i\}_{i=1, ...N}$에서 샘플링, $\alpha=0.7$
- Batch size : 64
- Token length : 256
- 같은 배치 내에서는 같은 언어만
- MLM used in combination with TML
4. Cross-lingual language model pretraining
- Cross-lingual LM 를 통해 얻고자 하는 것
- a better initialization of sentence encoders for zero-shot cross-lingual classification
- a better initialization of supervised and unsupervised neural machine translation systems
- language models for low-resource languages
- unsupervised cross-lingual word embeddings
'Deep Learning > Natural Language Processing' 카테고리의 다른 글
Encoders and Ensembles for Task-Free Continual Learning 리뷰 (0) | 2022.03.11 |
---|---|
Prompt Learning 오픈소스: OpenPrompt 리뷰 (0) | 2022.03.11 |
GPT Understands, Too 리뷰 (0) | 2022.03.11 |
MASS: Masked Sequence to Sequence Pre-training for Language Generation 리뷰 (0) | 2022.02.22 |
Transformers 가족 (BERT vs GPT vs GPT2) (0) | 2021.06.01 |
댓글