자연어처리8 GPT-3 (Language Models are Few-Shot Learners) 논문 리뷰 GPT-3 배경 설명 GPT-3은 요즘 많이 사용하는 ChatGPT의 근간이 된 논문으로, 2020년 OpenAI에서 NIPS에 발표한 논문이다. Language Model의 parameter가 꾸준히 늘어가는 추세였는데, GPT-3에서는 기존의 가장 큰 모델보다 거의 10배 정도의 많은 parameter를 넣을 정도로 큰 모델을 사용하였다. Model scaling-up을 통해 few-shot에서도 Task-Specific 한 기존의 finetuning 모델들의 성능에 필적하는 성능을 보여주었다. (이 시도가 현재 ChatGPT를 만든 것 같다.) Abstract 최근 NLP task에서 large corpus의 pre-training을 기반으로한 언어모델들이 큰 효과를 내고 있다. 하지만, 대부분의 .. 2023. 6. 12. DeBERTa(Decoding-enhanced BERT with disentangled attention) 논문 리뷰 DeBERTa 배경 설명 DeBERTa는 2020년 Microsoft에서 ICLR 2021에 낸, BERT의 성능을 개선한 논문이다. 기존 BERT를 개선한 논문들은 엔지니어링적 개선에 가까웠는데, 이 논문은 새로운 방법들을 제시해서, BERT의 성능을 향상했다. ICLR에 발표된 논문인만큼, 실험과 설명이 자세하게 적혀있어, 직접 읽어보는 것을 추천한다. Abstract 이 논문에서는 DeBERTa(Decoding-enhanced BERT with disentangled attention)이라는 새로운 모델을 제시한다. 이 모델은 2가지 새로운 방법을 사용하여, BERT, RoBERTa보다 높은 성능을 보인다. disentangled attention : 각 word들은 content와 position.. 2023. 6. 6. DistilBERT(a distilled version of BERT) 논문 리뷰 DistilBERT 배경 설명 DistillBERT는 Huggiing Face에서 2019년에 낸 논문으로, knowledge distillation을 사용하여, BERT의 문제점으로 지적되던, 큰 parameter 문제를 극복하기 위한 연구이다. 실제로 BERT를 실생활에서 이용할 때, 속도와 메모리 때문에 거의 DistilBERT를 많이 이용하는 것 같다. Abstract NLP 분야에서 large-scale pre-trained model을 사용한 transfer learning이 대세가 되었지만, model의 크기가 커서 연산 cost는 아직 크다. 이 논문에서는 DistilBERT라는 더 작지만, 성능은 떨어지지 않는 새로운 모델을 제안한다. DistilBERT은 pre-training 단계에서.. 2023. 6. 4. GPT-2 (Language Models are Unsupervised Multitask Learners) 논문 리뷰 GPT-2 배경 설명 GPT-2는 OpenAI에서 2019년 발표한 논문이다. GPT-2는 기존의 대규모 LM 구조인 GPT-1의 구조를 따르지만, 학습을 Unsupervised Multitask Learning을 사용하여, 범용성 있는 자연어처리를 할 수 있는 모델을 제시했다. 또한, parameter의 크기와 성능이 log-linear한 상관관계가 있다는 것을 제시하여, 많은 각광을 받았다. Abstract 자연어 처리의 다양한 분야에서 task specific한 데이터셋으로 spervised learning 하는 것이 일반적이다. 이 논문에서는 학습과정에 task specific한 지도학습 없이 학습하는 언어모델을 제안한다. 주어진 문서와 질문에 대한 정답을 구하는 문제에서, training dat.. 2023. 5. 27. BERT(Pre-training of Deep Bidirectional Transformers for Language Understanding) 논문 리뷰 BERT 배경 설명 BERT는 Google에서 2018년 10월에 나온 NLP 논문이다. 사실 지금은, Chat-GPT 때문에 GPT가 자연어 처리의 대명사가 되었지만, GPT 전에는 BERT가 자연어 처리의 대표 모델로 불리곤 했었다. BERT는 성능이 매우 좋아서, 아직도 많은 NLP Task에서 사용되고 있다. 개인적으로 이 논문을 읽으면서, 2018년 6월에 나온 GPT-1 논문을 굉장히 많이 신경 쓰고 있다는 인상을 받았다. Abstract 이 논문에서는 BERT(Bidirctional Encoder Representations form Transformers)라는 새로운 모델을 소개한다. 기존의 (그 당시) 유행하는 모델들(특히 GPT-1)과 달리 BERT는 단어의 양방향 데이터(이전 데이터와.. 2023. 5. 16. 자연어처리 모델 만들기-(2).데이터 전처리 💬 한국어 텍스트 데이터 전처리 텍스트 데이터는 보통 그 자체로 사용하기보다, 의미의 단위로 나눠서 활용 여부나 사이 연관 관계를 찾는다. 저번 장에서 확인한 대로, 데이터셋의 텍스트 데이터는 한국어 문장으로 구성되어 있다. 학습할 때마다 한국어 형태소 분리를 실행해도 되지만, 시간이 너무 많이 걸려서, 텍스트 데이터를 전처리 해놓기로 한다. 한국어 텍스트 데이터 전처리 방법 텍스트 데이터의 전처리 단계는 다음과 같다. 1. 텍스트 데이터를 형태소 단위로 분리한다. 2. 분리된 데이터 중, 불용어를 제거한다. (Optional) 3. 동의어를 mapping 할 수 있다면, 동의어를 mapping한다. (Optional) 4. word dictionary를 생성 5. word를 정수 인코딩한다. 1. 한국.. 2023. 4. 23. 이전 1 2 다음