본문 바로가기

전체 글74

Prompt Learning 오픈소스: OpenPrompt 리뷰 사실 앞으로 읽을 prompt 논문들에 대해 어떤 것을 읽으면 좋을지 생각해보려 읽어봤다. 원문은 아래에 있으며 공식 github에 더 많은 정보와, 읽으면 좋은 논문들이 잘 정리되어있다. 간략히 prompt에 대해 알아보고, 속성으로 훑어볼 prompt 중요 논문들 ? 탐색하기 위한 글 OpenPrompt: An Open-source Framework for Prompt-learning Prompt-learning has become a new paradigm in modern natural language processing, which directly adapts pre-trained language models (PLMs) to $cloze$-style prediction, autoregressi.. 2022. 3. 11.
GPT Understands, Too 리뷰 원문 GPT Understands, Too While GPTs with traditional fine-tuning fail to achieve strong results on natural language understanding (NLU), we show that GPTs can be better than or comparable to similar-sized BERTs on NLU tasks with a novel method P-tuning -- which employs trainable c arxiv.org 내용 요약 1) 기존의 Descrete prompt search는 prompt의 한 단어의 변화가 성능에 많은 영향을 미침 → prompt를 생성해 내는게 주요한 작업. 2) P-tuning은.. 2022. 3. 11.
clustering 평가 방법 (RI, rand index) Rand Index (RI) adjusted rand index는 클러스터의 타깃값을 아는 경우에 사용하는 평가 방법 (supervised inference?) given $S = {o_1, ..., o_n}$, S의 두개의 partition이 존재. $X={X_1, ..., X_r}$ a partition of $S$ into $r$ subset $Y={Y_1, ..., Y_r}$ a partition of $S$ into $s$ subset ${\displaystyle a}$, the number of pairs of elements in $S$ that are in the same subset in $X$ and in the same subset in $Y$ ${\displaystyle b}$, t.. 2022. 3. 7.
레이블인코딩(Label Encoding) vs 원핫인코딩(One-hot Encoding) 비교 컴퓨터는 인간의 언어를 이해하지 못한다. 우리가 컴퓨터에 한글을 입력한다 해도 컴퓨터가 받아들이는 것은 0과 1의 이진수로 이해를 하게된다. 따라서 우리가 머신러닝/딥러닝을 할 때 문자열의 값들을 숫자형으로 인코딩하는 전처리 단계가 필요하다. 인코딩 방식으로는 레이블 인코딩(Label encoding), 원-핫 인코딩(One-hot encoding) 두 가지 방식이 있다. 그렇다면 어떤 인코딩 방식을 써야할까? Label Encoding Label Encoding이란 문자열의 unique값을 숫자로 바꿔주는 방법이다. from sklearn.preprocessing import LabelEncoder fruit=['바나나', '사과', '사과', '포도', '딸기', '포도', '바나나'] print(s.. 2022. 2. 28.