본문 바로가기
Deep Learning/Natural Language Processing

XML, Cross-lingual Language Model Pretraining 리뷰

by hyez 2022. 2. 22.

Abstract

최근 English Natural Language Understanding(NLU)를 위한 pre-train의 효율성을 입증.

⇒ 본 연구에서는 영어에서 더 나아가 다국어로 확장하고, cross-lingual pre-training의 효과

cross-lingual language models (XLMs) 학습 방법

  1. monolingual - unsupervised learning
  2. cross-lingual - supervised learning (parallel data 사용)

→ cross-lingual classification, unsupervised, supervised 기계 번역에 대해 SOTA 달성

performance

  • XNLI에서 4.9% absolute accuracy
  • unsupervised machine translation
    • WMT’16 German-English : 34.3 BLEU (+ 9 BLEU)
  • supervised machine translation
    • WMT’16 Romanian-English : 38.5 BLEU (+ 4 BLEU)

1. Introduction

sentence encoders의 generative pre-training은 수 많은 NLU 벤치마크의 개선으로 이어짐.

  • Trasnformer : large unsupervised text corpus로 부터 pre-training, classification, NLU, NLI와 같은 문제들에 대해 fine-tuning

general-purpose sentence representation에 대해 관심은 많아졌지만, 본질적으로 monolingual에 대해서고, 주로 English benchamarks에 대해서만 연구가 진행 되었음.

최근 진행된 연구는 많은 언어로 된 cross-lingual sentence representations을 학습하고, 평가하며 영어 중심적인 편향을 완화하는 것을 목표로 한다. 이것은 어떤 문장을 shared embedding 공간으로 인코딩 할 수 있는 universal cross-lingual encoders를 구축할 수 있음을 시사한다.

본 연구에서는 multiple cross-lingual understanding (XLU)벤치마크에 대한 cross-lingual language model의 사전 훈련 효과를 입증한다

contribution:

  1. cross-lingual language modeling을 사용하여 cross-lingual representation을 학습하기 위한 새로운 비지도 학습 방법을 소개
    • 두 가지 monolingual pretraining objective
  2. parallel data를 사용할 때, cross-lingual pretraining을 개선하는 새로운 지도학습 object
    1. cross-lingual classification 2) unsupervised machine translation 3) supervised translation SOTA
  3. cross-lingual language model이 low-resource 언어의 perplexity를 크게 개선 가능
  4. 코드 및 사전 교육된 모델을 공개적으로 사용 가능

2. Related Work

3. Cross-lingual language models

세 가지 언어 모델링 목표를 제시

  • 2개의 monolingual - unsupervised
  • 1개의 parallel - supervised

3.1 Shared sub-word vocabulary

All languages에 대해서 **Byte Pair Encoing(BPE)**을 통해 생성된 동일한 vocabulary를 공유

  • digit or 고유명사와 같은 동일한 알파벳이나 anchor token(구두점) 등을 공유하게 되면서 여러 언어에 걸쳐 임베딩 공간의 정렬을 크게 개선하게 된다
  • “.”의 역할: 문장의 끝 → 영어(finish) / 국어(-다)의 embedding 공간 ⇒ 관계의 유지

monolingual 말뭉치에서 무작위로 샘플링 된 문장의 연결에 대한 BPE 분할을 학습

  • 위 분포를 따라 샘플링 하면 low-resource 언어와 관련된 토큰 수 가 증가하고, high-resource 언어에 대한 bias가 완화
  • 특히, low-resource 언어의 단어가 character level에서 분할 되는 것을 방지

3.2 Causal Language Modeling (CLM)

  • causal language modeling (CLM, 인과 언어 모델) = AR 모델(AutoRegressive, 자기 회귀)

  • LSTM - back-propagation through time(BPTT)
  •  Transformer
    • previous hidden states can be passed to the current batch to provide context to the first words in the batch.
      • the first word : [CLS]
      • transformer의 decoder에서 상삼각행렬을 마스킹→이전 hidden state를 현재 batch(입력 sequence)로 전달 하여 batch의 첫번째 단어 [CLS]에 context 정보를 제공
      • attention score masking
    • https://arxiv.org/abs/1808.04444
    • 그러나, 다국어로 확장되지 않으므로 simplicity을 위해 각 batch에 첫 번째 단어를 context 없이 남겨둠

 

3.3 Masked Language Modeling (MLM)

  • 전체 중 15%를 Masking
    • 80% : [MASK] token으로 대체
    • 10% : random 토큰
    • 10% : 유지
  • 본 연구와의 차이점
    • 문장 pair 대신 임의의 수의 텍스트 스트림(truncated at 256 tokens) 사용
  • rare and frequent (e.g.구두점, stopwords, ...) 사이의 불균형 → 빈번한 출력을 subsampling

Figure 1:Cross-lingual language model pretraining.The MLM objective is similar to the one of Devlin et al. (2018), but with continuous streams of text as opposed to sentence pairs. The TLM objective extends MLM to pairs of parallel sentences. To predict a masked English word, the model can attend to both the English sentence and its French translation, and is encouraged to align English and French representations. Position embeddings of the target sentence are reset to facilitate the alignment.

 

3.4 Translation Language Modeling (TLM)

  • parallel data 사용 → translation language modeling (TLM)
    • MLM의 확장으로 사용 - 원문과 번역 문장을 병렬적으로 사용
      • 영어 문장에서 마스킹된 단어를 예측하기 위해 모델은 주변 영어 단어 또는 프랑스어 번역에 따라 모델이 영어와 프랑스어 표현을 맞추도록 장려
      • 특히, 모델은 영어 context가 마스크된 영어 단어를 추론하기에 충분하지 않은 경우 프랑스어 context를 활용할 수 있다.
  • 각 문장의 Position Embedding은 각각 문장 시작점을 ‘0’으로 함

3.5 Cross-lingual Language Models

  1. 3개의 방법으로 진행: CLM, MLM, MLM used in combination with TLM
  2. CLM, MLM - monolingual, $\{q_i\}_{i=1, ...N}$에서 샘플링, $\alpha=0.7$
    1. Batch size : 64
    2. Token length : 256
    3. 같은 배치 내에서는 같은 언어만
  3. MLM used in combination with TML

4. Cross-lingual language model pretraining

  1. Cross-lingual LM 를 통해 얻고자 하는 것
    1. a better initialization of sentence encoders for zero-shot cross-lingual classification
    2. a better initialization of supervised and unsupervised neural machine translation systems
    3. language models for low-resource languages
    4. unsupervised cross-lingual word embeddings

댓글