본문 바로가기

GPT5

Prefix-Tuning: Optimizing Continuous Prompts for Generation 논문 리뷰 Prefix-Tuning 배경 설명Prefix-Tuning은 NLP 모델의 fine-tuning 과정의 비효율을 해결하기 위해 발표된 방법론으로 2021년 ACL에서 발표되었다.Pretrained model 전체를 fine-tuning하지 말고, prompting에 착안한 소규모의 parameter 학습만으로 fine-tuning과 비견하는 좋은 성능을 보인다. AbstractFine-tuning은 대규모 데이터에서 학습한 pre-trained model을 down-stream task에서 활용할 수 있게 하여 좋은 성능을 낸다.하지만, model의 모든 parameter를 바꾸기 때문에, 각 task마다 전체 parameter를 저장해놔야 한다.이 논문에서는 prefix-tuning이라는 자연어 생성 .. 2024. 8. 6.
PaLM(Scaling Language Modeling with Pathways) 논문 리뷰 PaLM 배경 설명 PaLM은 google에서 2022년에 발표한 LLM 관련 논문이다. GPT 이후의 NLP 분야의 거의 모든 논문이 그랬듯, Model Paramter를 더 크게 늘렸고, GPT-3의 흐름을 따라, task-specific 한 model이 아닌, 다양한 NLP 분야를 cover 하는 모델로 학습된다. 사실 GPT 등장 이후로 LLM 모델에서의 구조 변화는 크게 없다. Model parameter를 계속 늘리고, 이에따라 성능은 계속 좋아진다. 따라서, 기존 LLM과 달라진 부분에 집중하여 논문 리뷰를 시작한다. Abstract Language Model은 few-shot 방식을 사용하여, task-specific 학습에 필요한 데이터의 양을 줄이면서, 좋은 성능을 보여줬다. few-s.. 2023. 6. 29.
DeBERTa(Decoding-enhanced BERT with disentangled attention) 논문 리뷰 DeBERTa 배경 설명 DeBERTa는 2020년 Microsoft에서 ICLR 2021에 낸, BERT의 성능을 개선한 논문이다. 기존 BERT를 개선한 논문들은 엔지니어링적 개선에 가까웠는데, 이 논문은 새로운 방법들을 제시해서, BERT의 성능을 향상했다. ICLR에 발표된 논문인만큼, 실험과 설명이 자세하게 적혀있어, 직접 읽어보는 것을 추천한다. Abstract 이 논문에서는 DeBERTa(Decoding-enhanced BERT with disentangled attention)이라는 새로운 모델을 제시한다. 이 모델은 2가지 새로운 방법을 사용하여, BERT, RoBERTa보다 높은 성능을 보인다. disentangled attention : 각 word들은 content와 position.. 2023. 6. 6.
BERT(Pre-training of Deep Bidirectional Transformers for Language Understanding) 논문 리뷰 BERT 배경 설명 BERT는 Google에서 2018년 10월에 나온 NLP 논문이다. 사실 지금은, Chat-GPT 때문에 GPT가 자연어 처리의 대명사가 되었지만, GPT 전에는 BERT가 자연어 처리의 대표 모델로 불리곤 했었다. BERT는 성능이 매우 좋아서, 아직도 많은 NLP Task에서 사용되고 있다. 개인적으로 이 논문을 읽으면서, 2018년 6월에 나온 GPT-1 논문을 굉장히 많이 신경 쓰고 있다는 인상을 받았다. Abstract 이 논문에서는 BERT(Bidirctional Encoder Representations form Transformers)라는 새로운 모델을 소개한다. 기존의 (그 당시) 유행하는 모델들(특히 GPT-1)과 달리 BERT는 단어의 양방향 데이터(이전 데이터와.. 2023. 5. 16.
GPT-1 (Improving Language Understanding by Generative Pre-Training) 논문 리뷰 GPT-1 배경 설명 GPT는 최근 가장 유명한 딥러닝 모델 중 하나다. GPT-1은 2018년 OpenAI에서 발표한 자연어 생성 모델로 다양한 자연어 처리 Task에서도 좋은 성능을 보여준다. GPT-1은 2017년에 나온 Transformer 아키텍쳐를 기반으로 만들어졌다. 개인적인 생각으로는 이 논문이 과거 모델 중심의 딥러닝 발전 방향에서 지금의 학습 & 데이터 중심의 방향으로 변하는 계기가 되지 않았나 싶다. Abstract 자연어 처리는 이전까지(GPT-1 생성까지) 다양한 분야에서 발전을 이뤘다. 하지만, labeling 되지 않은 corpora(말뭉치) 데이터는 풍부하지만, 특정 자연어 처리 task 들을 학습하기 위한 label 데이터는 많지 않다. "GPT-1"에서는 다양한 label.. 2023. 5. 14.