사실 앞으로 읽을 prompt 논문들에 대해 어떤 것을 읽으면 좋을지 생각해보려 읽어봤다. 원문은 아래에 있으며 공식 github에 더 많은 정보와, 읽으면 좋은 논문들이 잘 정리되어있다.
간략히 prompt에 대해 알아보고, 속성으로 훑어볼 prompt 중요 논문들 ? 탐색하기 위한 글
Abstract
- Prompt Learning은 NLP에서 새로운 패러다임으로 자기매김
- cloze-style 예측
- autoregresive modeling
- sequence-to-sequence generation
- OpenPrompt : standard implementation framework 아래 사항들을 고려
- templating strategy
- initializing strategy
- verbalizing strategy
Intorduction
Pre-trained language models (PLMs)을 사용하는 방법
- standard approach : pretraining-finetuning paradigm
- 추가적인 parameter, task-specific object를 위한 tuning이 필요함
- 새로운 접근법 : Prompt tuning
- T5, GPT-3등의 논문에서 연구자들은 적은양의 데이터에서 textual prompts or demonstrations이 효과적인 것을 밝힘
prompt-based sentiment classification example
- template, verbalizer를 구성
- template : 원본 텍스트 + some extra tokens
- verbalizer : vocab의 단어에 label을 투영
- “<text> It is <mask>” / {“positive”:“great”, “neg-ative”:“terrible”}
- warpped된 문장은 토큰화 되어 PLM으로 공급되어 <mask> 토큰에 들어갈 어휘에 대한 분포를 예측한다.
참고 자료
- A series of studies of prompt-learning : Survey Paper
- 템플릿 구성 방안
- verbalizers
- Shengding Hu, Ning Ding, Huadong Wang, Zhiyuan Liu, Juanzi Li, and Maosong Sun. 2021. Knowl-edgeable prompt-tuning: Incorporating knowledge into prompt verbalizer for text classification. ArXiv preprint, 2108.02035.
- optimization
- application
2 Background
PLM은 거의 대분의 문제에서 SOTA를 달성 하였지만 따라오는 한가지 질문
PLM의 잠재력을 “충분히” 활용하고 있는가?
- 기존 fine-tuning 방식의 문제점
- adaption을 위해 추가적인 head를 사용하여 extra task-specific을 사용
- pre-train과 fine-tuning 사이의 gap이 생김
- massive computational volume (gpt3는 메모리에 올리기도 불가)
- prompt 학습은 사전 훈련 과정을 모방함으로써, 사전훈련과 모델 튜닝의 격차를 직관적으로 해결
- 예를들어 적절한 template를 사용하면 zero-shot prompt학습이 fine-tuning의 성능을 능가한다.
- 10B의 모델의 경우, prompt만 최적화 하는 것과 전체 매개변수를 미세조정 하는 것이 비슷한 성능을 얻는다.
- PLM에 보관된 지식을 더 효과적이고 효율적으로 이해하도록 유도 → prompt 사용
'Deep Learning > Natural Language Processing' 카테고리의 다른 글
Encoders and Ensembles for Task-Free Continual Learning 리뷰 (0) | 2022.03.11 |
---|---|
GPT Understands, Too 리뷰 (0) | 2022.03.11 |
MASS: Masked Sequence to Sequence Pre-training for Language Generation 리뷰 (0) | 2022.02.22 |
XML, Cross-lingual Language Model Pretraining 리뷰 (0) | 2022.02.22 |
Transformers 가족 (BERT vs GPT vs GPT2) (0) | 2021.06.01 |
댓글