본문 바로가기

Bert5

DeBERTa(Decoding-enhanced BERT with disentangled attention) 논문 리뷰 DeBERTa 배경 설명 DeBERTa는 2020년 Microsoft에서 ICLR 2021에 낸, BERT의 성능을 개선한 논문이다. 기존 BERT를 개선한 논문들은 엔지니어링적 개선에 가까웠는데, 이 논문은 새로운 방법들을 제시해서, BERT의 성능을 향상했다. ICLR에 발표된 논문인만큼, 실험과 설명이 자세하게 적혀있어, 직접 읽어보는 것을 추천한다. Abstract 이 논문에서는 DeBERTa(Decoding-enhanced BERT with disentangled attention)이라는 새로운 모델을 제시한다. 이 모델은 2가지 새로운 방법을 사용하여, BERT, RoBERTa보다 높은 성능을 보인다. disentangled attention : 각 word들은 content와 position.. 2023. 6. 6.
DistilBERT(a distilled version of BERT) 논문 리뷰 DistilBERT 배경 설명 DistillBERT는 Huggiing Face에서 2019년에 낸 논문으로, knowledge distillation을 사용하여, BERT의 문제점으로 지적되던, 큰 parameter 문제를 극복하기 위한 연구이다. 실제로 BERT를 실생활에서 이용할 때, 속도와 메모리 때문에 거의 DistilBERT를 많이 이용하는 것 같다. Abstract NLP 분야에서 large-scale pre-trained model을 사용한 transfer learning이 대세가 되었지만, model의 크기가 커서 연산 cost는 아직 크다. 이 논문에서는 DistilBERT라는 더 작지만, 성능은 떨어지지 않는 새로운 모델을 제안한다. DistilBERT은 pre-training 단계에서.. 2023. 6. 4.
RoBERTa (A Robustly Optimized BERT Pretraining Approach) 논문 리뷰 RoBERTa 배경 설명RoBERTa는 워싱턴 대학과 Facebook에서 2019년에 나온 BERT에 대한 연구 & 개선 논문이다.BERT의 등장으로 언어 모델의 뼈대가 통일(?)된 상황에서, 그것을 개선할 방법을 제안하였다. BERT 같은 대용량 언어 모델은 학습과 재현이 힘들 것으로 알았는데, 역시 facebook이어서 가능한가 싶다. pretrained model을 사용할때, orginal BERT보다는 RoBERT를 많이 사용하는 것 같다. Abstract언어모델을 Pretraining 방식으로 학습하는 방법이 큰 성능 향상을 이끌었다. Training은 매우 계산 cost가 많이 들고, 모델마다 각기 다른 사이즈의 다른 데이터셋을 통해서 수행된다. 모델의 성능에서 Hyperparameter의 선.. 2023. 6. 3.
GreaseLM(Graph Reasoning Enhanced Language Modles For Question Answering) 논문 리뷰 GreaseLM 배경 설명GreaseLM은 2022년 Stanford에서 나온 ICLR 논문이다.사실 KG에 대해, 전문적인 지식은 없지만, 최근 Language Model에 KG 정보 등을 이용해서 성능을 높이려는 방식이 많이 사용되고 있는 것 같아 흥미가 생긴다.이 논문은 KG를 단순 LM의 학습을 도와주는 용도가 아니라, 두 modality 간의 정보를 섞는 fusion 개념으로 KG와 LM을 사용하였기에 굉장히 가치가 있는 논문이라고 생각한다. Abstract복잡한 텍스트 내러티브 질문에 대답하기 위해서는 Context와 그 안에 숨겨진 지식들 모두에 대한 추론이 필요하다.현재(그 당시) QA 시스템들에 많이 사용되는 pretrained Language Model(LM)은 concept 들 간의 .. 2023. 5. 23.
BERT(Pre-training of Deep Bidirectional Transformers for Language Understanding) 논문 리뷰 BERT 배경 설명 BERT는 Google에서 2018년 10월에 나온 NLP 논문이다. 사실 지금은, Chat-GPT 때문에 GPT가 자연어 처리의 대명사가 되었지만, GPT 전에는 BERT가 자연어 처리의 대표 모델로 불리곤 했었다. BERT는 성능이 매우 좋아서, 아직도 많은 NLP Task에서 사용되고 있다. 개인적으로 이 논문을 읽으면서, 2018년 6월에 나온 GPT-1 논문을 굉장히 많이 신경 쓰고 있다는 인상을 받았다. Abstract 이 논문에서는 BERT(Bidirctional Encoder Representations form Transformers)라는 새로운 모델을 소개한다. 기존의 (그 당시) 유행하는 모델들(특히 GPT-1)과 달리 BERT는 단어의 양방향 데이터(이전 데이터와.. 2023. 5. 16.