반응형

 

DeBERTa 배경 설명

  • DeBERTa는 2020년 Microsoft에서 ICLR 2021에 낸, BERT의 성능을 개선한 논문이다. 
  • 기존 BERT를 개선한 논문들은 엔지니어링적 개선에 가까웠는데, 이 논문은 새로운 방법들을 제시해서, BERT의 성능을 향상했다.
  • ICLR에 발표된 논문인만큼, 실험과 설명이 자세하게 적혀있어, 직접 읽어보는 것을 추천한다.

Abstract

  • 이 논문에서는 DeBERTa(Decoding-enhanced BERT with disentangled attention)이라는 새로운 모델을 제시한다.
  • 이 모델은 2가지 새로운 방법을 사용하여, BERT, RoBERTa보다 높은 성능을 보인다.
    1. disentangled attention : 각 word들은 content와 position vector로 표현되고, 그들의 contents와 상대적 위치에 따라, words들 간에 attention을 구한다.
    2. enhanced mask decoder : 개선된 mask decoder로 decoding layer의 절대 위치를 포함하여, masking token을 예측한다.
  • 추가적으로, 새로운 virtual adversarial trainin이 model의 generalization을 향상하기 위해 사용된다.
  • 이를 통해, NLU(자연어 이해) 뿐 아니라, NLG(자연어 생성)에서도 기존 모델인 BERT, RoBERTa에 비해 좋은 성능을 보인다.

Introduction

  • Transformer는 문장 내의 각 단어가 미치는 영향을 self-attention으로 연산하여, 병렬 수행이 가능하도록 하였다.
  • 이 논문에서는 distentangled attention과 enhanced mask decoder를 사용하여, BERT의 성능을 개선한, DeBERTa를 소개한다.

[Disentangled attention]

  • 기존 positional 정보와 content 정보의 합으로 표현되던 BERT의 embedding과 다르게, DeBERTa에서는 content와 postion vector를 따로 encode 한다.
  • word 사이에 attention weights는 그들의 contents와 상대적 위치를 고려하여, disentangled matrics를 통해 구해진다.
  • 이것은 attention이 contents 뿐 아니라, 그 사이의 상대적 위치에 의존한다는 것에서 비롯되었다.

[Enhanced mask decoder]

  • DeBERTa도 BERT와 동일하게 masked language modeling을 이용해서 학습한다.
  • Disentangled 단계에서 이미 상대적 위치는 고려했지만, prediction에서 매우 중요한 각 단어의 절대적 위치는 고려하지 못한다. (절대적 위치는 문장 내에서 역할을 의미할 수 있다.)
  • DeBERTa에서는 각 단어의 절대적 위치 정보를 softmax 단 바로직전에 합쳐준다.
  • 추가적으로, 이 논문에서는 fine-tuning 단계에서 새로운 virtual adversarial training 방법을 제시한다. 이 방법은 model의 generalization을 향상한다.

Background

[Transformer]

  • Transformer에 대한 설명은 아래 참조
  • 기본 Transformer에서는 word의 위치정보가 부족하다. 이를 해결하기 위해, 문장 내 단어의 상대적 위치와 절대적 위치를 고려하는 방법들이 나왔지만, 일반적으로 상대적 위치를 사용하는 것이 효과적으로 알려져 있다.
  • 이 논문은 각 단어가 word content와 position의 2개의 독립적인 vector를 사용하고, attention weight를 각 vector의 disentangled metrics를 사용해서 구한다는 점에서 기존 방법들과 차이점이 있다.

2023.05.08 - [NLP 논문] - Transformer (Attention Is All You Need) - (1) 리뷰

 

Transformer (Attention Is All You Need) - (1) 리뷰

Transformer 배경 설명 Transformer는 Google Brain이 2017년 "Attention is All You Need"라는 논문에서 제안된 딥러닝 모델이다. Transformer는 기존 자연어 처리 분야에서 주로 사용되던 RNN, LSTM 같은 순환 신경망 모

devhwi.tistory.com

[Masked Language Model]

  • 자연어 모델에서는 BERT 이후로 Masked Language Modeling을 많이 사용한다.
  • Masked Language Modeling에서는 model parameter θ를 학습하기 위해, 다음의 objective를 사용한다.

DeBERTa

[disentangled attention]

disentangled attention 식을 만들기 위해, 몇 가지를 설명한다. 논문 내에는 따로 구분 짓지 않았지만, 설명 편의를 위해 임의로 3가지 part로 나눴다.


1. Vector 구성 요소

  • 문장 내 i번째 token은 다음과 같은 두 개의 vector로 구성된다.
    • i번째 contents vector: \(H_i\)
    • i번째 token에서 j번째 token과의 상대적 position : \(P_{i|j}\)
  • i번째 token과 j번째 token 간의 attention score는 다음과 같이 계산된다.

→ 위의 수식은 4개의 component로 분리되는데, 왼쪽부터 각각, "content-to-content", "content-to-position", "position-to-content", "position-to-position"이다.  

 

  • 이 논문이 지적하고 있는 것은 과거 논문들에서는 attention의 4가지 component 중, "content-to-content"와 "content-to_position"만 사용하고 있다는 것이다. (content vecotor에 position을 더해서 만들었기에)
  • 특히, 문장 내에서 두 단어 간의 상관관계를 고려할때, 단순 contents만 보는 것이 아니라, 두 단어간의 상대적 위치도 매우 중요하기 때문에 "position-to-contents"와 "contents-to-position"을 모두 봐야 한다.
  •  수식 내용 중, position vector가 상대적 위치를 기반으로 만들어졌기 때문에, "position-to-position"은 추가적인 정보를 주지 못하므로, 수식에서 삭제한다.   

 

2. Self-attention operation

  • self-attention은 아래와 같은 수식을 통해 구해진다. Output hidden vector인  \(H_o\)를 구하기 위해, Query(Q)와 Key(K)를 통해 Attention(A)을 구하고, Attention을 Normalize 한 후 Value(V)에 곱한다. 

 

3. 상대적 위치  

  • 이 논문에서는 상대적 위치를 아래와 같이 계산한다. 

→ k는 maximum relative distance. 위의 거리 식을 생각해 보면, 현재 token의 앞쪽에 위치한 token은 distance가 0으로 주의 깊게 보겠다, 뒤쪽에 위치한 token 중, k 이내는 가까울수록 고려 많이 하겠다, 그 외에는 조금만 고려하겠다는 뜻으로 이해된다.


  • 위의 1,2,3번을 종합하면, disentangled attention은 1.attention은 3개 component로 구성되었고, 2. self-attention 기반, 3. 상대적 거리를 고려하는 attention이다. 
  • 최종적으로 output hidden vector는 아래와 같이 구해진다.

→ 주의해야 할 점은, "position-to-content"에 \(\delta(j, i)\)가 사용되었다는 점인데, 이것은 "position-to-content"를 구할 때, 사용되는 content가 j번째 content이기 때문이다. 

 

[enhanced mask decoder]

  • disentangled attention에서 relative position은 고려되었지만, absolute position은 실제 mask-prediction에 중요함에도 불구하고, 고려되지 않았다. 
  • 특히, 뉘앙스 같은 것은 absolute position 정보가 중요하다. 
  • DeBERTa에서는 모든 Transformation layer들의 직후, softmax layer 전단에 absoulte position 정보를 넣어주었다.
  • 이를 통해, Transformer가 elative position을 우선 고려하되, absolute position 정보도 보완 정보로 사용할 수 있게 하였다. 
  • 이러한 모델을 Enhanced Mask Decoder(EMD)라고 부른다. 
  • BERT 방식(input 정보에 absolute position 정보를 넣는 것)에 비해 성능이 좋다.

 

Scale Invariant fine-tuning

  • Layer Noramlization 기법에 영감을 받아, SIFT 알고리즘을 사용하였다. 
  • SIFT는 word embedding vector를 확률 vector로 normalization 하고, normalize 된 word embedding에 preturbation을 적용한다. 
  • 이로 인해,  fine-tuend model의 성능이 상당히 향상되었다.

 

 

Experiment

  • Large model : GLUE에서 다른 large model에 비해 좋은 성능을 보였다. 

  • Base model : Base 모델에서도 좋은 성능을 보였다.

 

ETC

  • 사용한 데이터 셋 

  • model 학습을 위한 paramter

  • RoBERTa와 attention visualization 비교

→ RoBERTa는 diagonal line이 두드러지지만, DeBERTa는 그렇지 않다. 이것은 EMD의 영향인 것으로 확인된다.(DeBERTa가 다른 단어를 골고루 본다는 뜻인 것 같다.)

RoBERTa는 vertical line이 2줄 존재하는데, 하나는 special token(CLS)등 때문이고, 하나는 high frequency token(예시: a, the) 때문이다. DeBERTa는 special token 영역의 1줄만 존재한다.(특정 단어에 무조건 의존하는 현상이 적다는 것을 말하는 것 같다.)

 

Reference 

He, Pengcheng, et al. "Deberta: Decoding-enhanced bert with disentangled attention." arXiv preprint arXiv:2006.03654 (2020).

 

 

총평

  • 실험이 정말 많아서, 많은 생각을 할 수 있게 만든 논문이다.
  • BERT 관련 논문들을 계속 읽어오고 있는데, 모델 단의 개선 아이디어는 처음인 것 같아서, 재밌었다.

 

DeBERTa 관련 git : https://github.com/microsoft/DeBERTa

반응형

DistilBERT 배경 설명

  •  DistillBERT는 Huggiing Face에서 2019년에 낸 논문으로, knowledge distillation을 사용하여, BERT의 문제점으로 지적되던, 큰 parameter 문제를 극복하기 위한 연구이다.
  • 실제로 BERT를 실생활에서 이용할 때, 속도와 메모리 때문에 거의 DistilBERT를 많이 이용하는 것 같다.  

 

Abstract

  • NLP 분야에서 large-scale pre-trained model을 사용한 transfer learning이 대세가 되었지만, model의 크기가 커서 연산 cost는 아직 크다.
  • 이 논문에서는 DistilBERT라는 더 작지만, 성능은 떨어지지 않는 새로운 모델을 제안한다. 
  • DistilBERT은 pre-training 단계에서 knowledge distillation을 이용하여, BERT의 모델 크기를 40%로 줄이고, 60%나 빠르지만, 성능은 97% 정도로 거의 떨어지지 않는다.
  • lLarge language model이 학습한 내용을 배우기 위해, language modeling에 triplet loss를 사용하여 학습한다.

 

Introduction

  • NLP 분야에서 transfer learning이 주류로 자리 잡은 이후, 성능 향상을 위해 모델의 크기를 점점 키우고 있다. 
  • 하지만, 이런 흐름은 1) 학습을 위한 자원 사용이 계속 증가한다는 점 2) 연산과 메모리 소모가 더 커져서, real time 처리와 같은 응용을 어렵게 한다는 점이 있다. 
  • 이 논문에서는 knowledge distillation을 사용하여, 기존 languager model보다 훨씬 더 작아, 가볍고, 속도가 빠르면서 성능은 좋은 모델을 제안한다.
  •  triplet loss를 사용하여 학습된, 기존보다 40% 가량 작은 Transformer가 기존 방식으로 학습된 Transformer와 거의 비슷한 성능을 내면서, 60%나 빠르다는 것을 보인다.

 

Knowledge Distillation

  • knowledge distillation은 compact model을 위한 압축방식에서 비롯된 것으로, larger model(일반적으로 teacher라고 부름)의 performance를 따를 수 있는 compact model(student라고 함)을 찾는 과정이다.
  • classification 학습은 일반적으로 one-hot vector를 이용한 Cross-entropy를 이용한다. 따라서, 각 class에 분포될 확률을 가지고 있다. classification 학습에서 knowledge distillation은 기존 classification을 위한 학습뿐 아니라, large model의 확률 분포를 따르도록 compact model을 학습한다(distillation loss).
  •  이 논문에서도 pre-training 과정에서 mask를 추정할때, distiilation loss의 개념을 활용한다. 추가적으로 compact model과 large model의 hidden states vector가 align 되도록 cosine embedding loss를 추가했다.

 

DistillBERT

[Student(compact model) architecture]

  • 전체적인 모델은 BERT와 동일하지만, layer의 개수가 반으로 줄었고, token-type embeddings와 pooler를 삭제했다. 
  • transformer의 hidden state dimension은 연산이 최적화된 라이브러리를 사용하기 때문에, 줄여도 큰 영향을 미치지 않아, layer를 줄이는데 집중했다.

[Student Initialization]

  • Teacher와 Student가 구조가 비슷한 덕(dimension이 같아서)에 Teacher의 2개 layer마다 1개 layer의 parameter를 Student로 가져와서 Initialization 하였다. 

[Distillation]

  • RoBERTa의 방법을 따라서 학습했다. 

2023.06.03 - [NLP 논문] - RoBERTa (A Robustly Optimized BERT Pretraining Approach) 논문 리뷰

 

RoBERTa (A Robustly Optimized BERT Pretraining Approach) 논문 리뷰

RoBERTa 배경 설명RoBERTa는 워싱턴 대학과 Facebook에서 2019년에 나온 BERT에 대한 연구 & 개선 논문이다.BERT의 등장으로 언어 모델의 뼈대가 통일(?)된 상황에서, 그것을 개선할 방법을 제안하였다. BERT

devhwi.tistory.com

[Data & Computational Power]

  • Original BERT처럼 English Wikipedia와 Toronto Book Corpus를 사용했다.
  • 8대의 16GB V100로 90시간 학습했다. 

 

Experiments

  • GLUE에서 성능 비교를 했을때, ELMo보다는 높고, Original BERT보다 40%의 paramter만 사용함에도 불구하고, BERT 성능에 97% 정도로 매우 비슷한 성능을 보인다.

  • Downstream tasks들에서도 DistillBERT는 BERT와 과의 비슷한 성능을 보인다.

  • Parameter와 속도를 비교해보았을때, original BERT에 비해 매우 적은 parameter를 사용하고, 빠르다는 것을 알 수 있다.

 

Reference 

DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter, Victor Sanh and Lysandre Debut and Julien Chaumond and Thomas Wolf, arXiv, 2019

 

총평

  • 아이디어가 매우 간단하고, 명확해서 좋다. 
  • BERT를 실용 단계에서 잘 활용할 수 있는 이런 연구들이 많이 나왔으면 좋겠다. 
반응형

RoBERTa 배경 설명

  • RoBERTa는 워싱턴 대학과 Facebook에서 2019년에 나온 BERT에 대한 연구 & 개선 논문이다.
  • BERT의 등장으로 언어 모델의 뼈대가 통일(?)된 상황에서, 그것을 개선할 방법을 제안하였다. 
  • BERT 같은 대용량 언어 모델은 학습과 재현이 힘들 것으로 알았는데, 역시 facebook이어서 가능한가 싶다. 
  • pretrained model을 사용할때, orginal BERT보다는 RoBERT를 많이 사용하는 것 같다.  

 

Abstract

  • 언어모델을 Pretraining 방식으로 학습하는 방법이 큰 성능 향상을 이끌었다. 
  • Training은 매우 계산 cost가 많이 들고, 모델마다 각기 다른 사이즈의 다른 데이터셋을 통해서 수행된다.
  • 모델의 성능에서 Hyperparameter의 선택은 결과에 중요한 영향을 미친다. 
  • 이 논문에서는 주요 hyperparameter들과 training 데이터 사이즈를 달리하면서 BERT의 pretraining의 과정을 살펴본다. 
  •  또한, 기존 BERT가 학습이 덜되었다는 것을 밝히고, 이것을 개선해서 BERT가 이후의 언어모델에 필적하거나 그보다 높은 성능을 보이도록 하였다. 

Introduction

  • self-training 방법을 사용한 다양한 언어모델들이 나와서 성능 향상을 이끌었지만, 각 언어모델의 어느 측면이 성능 향상에 영향을 미치는지 밝히는 것은 어렵다.
  • Training에 계산 cost가 크고, 각기 다른 크기의 다른 종류의 학습 데이터가 사용되기 때문에, 모델링 향상을 위한 각 방법들이 어떤 영향을 미치는지 알기 어렵다, 
  • 이 논문에서는 hyperparameter tuning과 training set size의 영향을 파악하고, BERT의 학습이 덜 되었다(개선할 여지가 있다는 것)을 밝힌다.
  • 또한, RoBERTa라는 BERT 성능을 향상할 수 있는 학습 방법들을 제안하여, 기존 BERT를 뛰어넘는 성능을 기록했다. 
  • RoBERTa의 개선은 다음과 같다. 
    • 학습에 더 길고, 큰 batch를 이용
    • 다음 문장 예측 objective를 삭제
    • 긴 문장으로 학습
    • training data의 masking pattern을 계속 바꿔줌
  • 추가적으로 RoBERTa는 "CC-NEWS"라는 새로운 대용량 데이터셋으로 학습되었다. 

 

Background

  • BERT 기반이다보니, BERT에 대한 Background를 설명한다.  BERT 설명은 아래 글을 참조

2023.05.16 - [NLP 논문] - BERT(Pre-training of Deep Bidirectional Transformers for Language Understanding) 논문 리뷰
 

Experimental Setup

[Implementation]

  • 우선, 이 논문은 original BERT를 재현하기 위해 일부 조건을 제외하고는 기존 BERT 논문에 나온 setup을 따랐다. 

[Data]

  • BERT 방식의 pretraining은 대용량 텍스트 데이터에 의존한다.
  • 이전 연구에서 data size가 performance 향상을 일으킬 수 있다고 하여, 많은 연구들이 BERT에 더 많고 다양한 데이터들을 이용해 봤지만, 모든 연구가 학습 모델을 공개하지는 않았다.
  • 이 논문에서는 크기와 domain이 다양한 5가지의 영어 데이터셋(총합 160GB)을 이용하였다.

[Evaluation]

  • 과거 연구들을 따라서, 3개의 benchmark(GLUE, SQuAD, RACE)들을 이용하여 성능을 평가했다.

 

Training Procedure Analysis

  • BERT의 pretraining 과정의 각 과정을 연구해본다. 비교를 위해, 모델 아키텍처는 고정하였다.(BERT Base 버전)

[Masking 방식 비교]

  • BERT의 학습 과정에는 token에 mask를 random하게 넣어, 이를 예측하는 과정이 있다. 이 과정에서 mask의 위치는 미리 후보지가 정해져 있고, 이 중 한 token에만 고정적으로 넣는다. 이를 이 논문에서는 "single static mask"라고 한다. 이러한 방식은 masking 될 위치가 고정되어 있기 때문에, 학습 epoch이 늘수록 중복되는 학습이 많아진다.
  • 이 논문에서는 dynamic masking이라는 방법을 제안하고 "single static mask"와 비교한다. dynamic masking은 model에 sentence를 전달하는 과정에서 masking pattern을 만든다. 
  • 결과 : dynamic masking이 기존 방법인 static 방법보다 약간의 성능 향상을 가져온다. 이후 연구에서는 dynamic 방식을 사용한다.

 
[Model Input Format & 다음 문장 예측]

  • BERT 학습 과정 중에, 문장 묶음(Segment) 다음에, 실제 연결되는 문장과 아닌 문장을 넣고, 연결성에 대한 Ture/False를 학습하는 내용이 있다. (auxiliary Next Sentence Prediction Loss, 약칭 NSP Loss)
  •   과거 연구들에서 NSP Loss를 지우면, 성능에 큰 악화가 생긴다고 증명했지만, 최근(당시) 연구에서는 NSP Loss의 필요성에 대해서 의문을 제기한다. 
  • 이 모순을 해결하기 위해 다양한 Input Format을 사용해보고, 이를 비교해 본다.

 

  1. Sentence-pair NSP : 각 input이 한 쌍의 natural sentence를 포함한다. 이 두 문장은 같은 documentation에서 왔을 수도 있고, 각기 다른 문서에서 왔을 수도 있다. NSP Loss를 유지한다. 
  2. Full-Sentences : 각 input은 여러 문서에서 sampling 된 전체 문장을 포함한다. input은 문서 간의 경계를 넘을 수 있다. (한 문서의 sentences 뒤에 다른 문서의 sentences가 연결될 수 있다.) 다른 NSP Loss가 없다. 
  3. DOC-Sentences : Full-Sentences 방법과 비슷하지만, 다른 문서와 연결되는 부분은 없다.(한 문서에서만 샘플링) NSP Loss가 없다. 
  • 결과
    • 우선 기존 방법인 Segment -pair와 Sentence-pair를 비교해 보았다. 둘 다 NSP Loss를 사용하지만, 후자의 성능이 더 낮았다.  즉, sentences 단위의 학습은 downstream 학습에서 성능 악화를 이끌 수 있다. 이것은 long-range의 dependency들을 학습할 수 없기 때문으로 보인다. 
    • 다음은 DOC-Sentences와 기존 BERT 성능을 비교해 본다. 이때, 전자의 성능이 미세하게 높다. 이는 NSP Loss를 제거하면 downstream 학습에서 기존과 비슷하거나, 약간 높은 성능을 보여준다. 
    • 마지막으로, 여러 문서가 포함될 수 있는 FULL-Sentences와 한 문서의 내용만 포함된 DOC-Sentences의 비교이다. 후자가 조금 더 높은 것을 봐서, 한 문서에서 문장을 추출하는 게 좋을 수 있다. 하지만, DOC-Sentences들은 데이터 사이즈가 다양해서(문서 당 문장의 길이와 개수가 다르므로) 논문의 이후 연구에서는 FULL-Sentences 방법을 사용한다.

[Large Batch]

  • 과거 연구에서는 큰 batch들을 이용하는 게 optimization 속도와 성능을 향상한다고 알려졌다. 
  • 최근(당시) 연구에서 BERT에서 Large Batch를 사용할 수 있다는 것을 보여주었다. 
  • Batch size를 다양하게 실험해 봤다. 
  • 결과 : BERT도 Batch size가 크면 성능이 좋았다. 하지만, 너무 커지면, 오히려 떨어진다. 

[Text Encoding]

  • 기존 연구들에서 Byte 단위의 BPE를 이용해서, Unknown token을 줄이는 좋은 방법을 사용했다.
  •  기존 BERT에서는 character-level의 BPE 어휘(30K)를 사용했지만, 이 논문에서는 byte-level의 BPE 어휘(50K)를 사용한다. 
  • 앞선 연구들에서 두 encoding 방법이 약간의 차이만 있다고 하지만, 다양한 어휘 처리를 위해 byte-level을 따른다.

 

RoBERTa

  • 앞선 section에서 BERT의 pretraining의 다양한 부분을 비교 & 연구해 보았다. 이 연구들을 종합해서 RoBERTa라는 방식을 제안한다. 
  • RoBERTa는 1) dynamic masking을 사용하고, 2) NSP Loss를 제거한 Full-sentences를 사용하고, 3) Large mini-batches를 사용한다. 또한, 4) byte-level의 BPE을 사용한다. 
  • 추가적으로 이전 연구들에서 중요하다고 인지하지 못했던 1) pretrainind 과정에서 사용되는 데이터, 2) training pass의 개수에 대해 탐구해 봤다.

 

  • 결과 
    • 앞서 분석한 요소를 다 넣은 RoBERTa가 기존에 비해 성능이 좋다. (BERT_large VS RoBERTa)
    • 추가 데이터셋을 넣었을 때, 성능이 더 좋아진다. (additional data)
    • pretraining 과정이 길수록 성능이 향상된다. (pretrain longer, pretrain even longer)

Reference

RoBERTa: A Robustly Optimized BERT Pretraining Approach, Yinhan Liu and Myle Ott and Naman Goyal and Jingfei Du and Mandar Joshi and Danqi Chen and Omer Levy and Mike Lewis and Luke Zettlemoyer and Veselin Stoyanov (arxiv:1907.11692.)


 

총평

  • BERT 등장 이래로, 참신한 모델링을 짜는 것보다 데이터 엔지니어링을 어떻게 할 것인지가 중요해진 흐름을 반영한 논문인 것 같다.
  • 개인적으로 이렇게 다양한 실험을 할 수 있는 환경이 부럽기도 하고, BERT를 재현하고 실험한 저자들이 대단하다는 생각이 든다. 
반응형

DTW는 두 시계열의 데이터를 비교하기 위해 자주 사용하는 방법이다. 그 원리와 사용법을 제대로 알아보자.


DTW 란?

  • DTW(Dynamic Time Warping)은 시계열 데이터 간의 유사성을 비교하기 위한 알고리즘이다. 
  • DTW는 시계열 데이터 간의 길이나 속도가 달라도, 이것을 고려하여 유사성을 측정할 수 있기 때문에 시계열 데이터 분석에 많이 활용된다.
  • DTW는 시계열 형태의 sequence 데이터에 모두 활용할 수 있다.
  • DTW의 유사도를 바탕으로 두 시계열 데이터 간의 시간 정렬(time alignment)을 할 수 있다.
  • DTW는 음성인식이나 자연어처리에 자주 활용된다.

DTW 이해

  • 그림의 두 시계열 데이터를 보았을때, 길이와 형태가 다르지만, 비슷한 Pattern을 띄고 있다는 것을 알 수 있다. 

  • 일반적으로 두 시계열 데이터를 비교하는 방법은 동일 시점에서 두 데이터의 값을 비교하는 것이다. 하지만, 비슷한 Pattern을 가진 두 시계열 데이터도 같은 시점에서 비교하였을 때는 큰 차이가 날 수도 있다. 특정 시점에서의 두 데이터의 값이 중요한 분석일 때는 이러한 방식이 맞지만, 두 시계열 데이터 간의 Pattern의 Similarity가 중요한 분석에서는 다른 방법이 필요하다. DTW는 한 시계열 데이터의 첫 시점에서부터 순차적으로 다른 시계열 데이터 내의 시점 데이터 중 가장 비슷한 시점을 찾고, 이 최소 거리들을 누적하여 유사도를 측정한다. 이로 인해, 길이와 시점의 차이가 있는 시계열 데이터도 유사도를 비교할 수 있다.   

DTW 원리

  • DTW는 기본적으로 다이나믹 프로그래밍 기법(문제를 여러 개의 하위 문제로 분할에서 최적해를 계산하는 방법)을 이용한다. 
  • DTW를 위해 우선 두 시계열의 시점간의 유사도를 측정하기 위한 거리함수를 정의해야 한다. 일반적으로 Euclidean distance가 많이 활용된다.
  • DTW에서 시점을 탐색에서는 다음의 조건을 충족시켜야한다. 
    • boundary condition : Warping 거리의 첫 번째와 마지막은 이어져야 한다.
    • continuity : Warping 경로는 대각 요소를 포함한 인접한 셀로 제한된다.
    • monotonicity: Warping 경로는 음의 방향으로 이동하지 않는다. (이미 matching된 warping이면, 이전 시점은 보지 않는다.)
  • DTW는 위의 조건들을 만족하면서 Warping 거리의 합이 최소가 되는 경로를 찾는 과정이다.
  • Warping 거리의 합은 아래 수식으로 나타난다. 

 

이를 그림으로 표현하면 DTW를 구하는 방식은 아래와 같다. (편의를 위해 맨해튼 거리를 이용한다.)

 

우선 boundary condition에 의해 Warping 거리의 첫번째와 마지막은 이어져야한다. 따라서, Warping 경로가 빨간색 표시된 두 점은 무조건 지나가야 한다. 맨 끝 시점(맨 오른쪽 위 빨간 1)에서 인접한 값들을 보았을 때, 가장 distance가 작은 쪽은 왼쪽에 위치한 1이다. 

전 단계에서 찾은 1에서 인접한 값들을 보았을때, (monotonicity 조건에 의해 matching 된 값들을 넘어서는 값에서는 찾을 수 없다. → 찾는 방향은 거꾸로 진행했기 때문에 앞선 설명과 헷갈릴 수 있다.) 왼쪽에 위치한 1과 대각선에 위치한 1이 후보가 된다. 두 값 중, 어느 값을 선택해도 상관없지만, 일반적으로 대각선을 많이 선택한다. 

이 과정을 반복하면, 아래와 같은 경로가 완성된다. 

 

경로를 따라 distance들을 모두 합하면, DTW가 계산된다.

DTW 값은 (1+1+1+1+1+1) = 6

 

 

DTW 코드 구현 

DTW의 구현은 Dynamic Programming을 그대로 구현하면 된다.

 

import numpy as np

def dtw_distance(x, y, dist):
    m = len(x)
    n = len(y)
    
    # DTW 행렬 초기화
    dtw = np.zeros((m+1, n+1))
    
    # 첫 번째 행 초기화 (경로 시 제외하기 위해)
    dtw[0, 1:] = np.inf
    
    # 첫 번째 열 초기화 (경로 시 제외하기 위해)
    dtw[1:, 0] = np.inf
    
    # DTW 행렬 계산
    for i in range(1, m+1):
        for j in range(1, n+1):
            cost = dist(x[i-1], y[j-1])  # 두 데이터 포인트 간의 거리 또는 유사성 계산
            dtw[i, j] = cost + min(dtw[i-1, j], dtw[i, j-1], dtw[i-1, j-1])
    
    # DTW 거리 반환
    return dtw[m, n]

def distance(a, b):
    return abs(a - b)


if __name__ == '__main__':
    # 예시 시계열 데이터
    x = [1, 2, 3, 4, 5]
    y = [2, 3, 4, 5, 6, 7]

    dtw_distance = dtw_distance(x, y, distance)

    print("DTW 거리:", dtw_distance)
반응형

GPT-2 배경 설명

  • GPT-2는 OpenAI에서 2019년 발표한 논문이다. 
  • GPT-2는 기존의 대규모 LM 구조인 GPT-1의 구조를 따르지만, 학습을 Unsupervised Multitask Learning을 사용하여, 범용성 있는 자연어처리를 할 수 있는 모델을 제시했다.
  • 또한, parameter의 크기와 성능이 log-linear한 상관관계가 있다는 것을 제시하여, 많은 각광을 받았다. 

Abstract

  • 자연어 처리의 다양한 분야에서 task specific한 데이터셋으로 spervised learning 하는 것이 일반적이다.
  • 이 논문에서는 학습과정에 task specific한 지도학습 없이 학습하는 언어모델을 제안한다.
  • 주어진 문서와 질문에 대한 정답을 구하는 문제에서, training dataset 없이 4개의 베이스라인 시스템 중, 3개와 맞먹거나, 그를 능가하는 수준을 기록했다.
  • LM의 용량은 zero-shot task transfer를 성공적으로 하는데, 중요한 요소이다. 또한, 용량 증가에 따라, 성능도 log linear 하게 증가한다. 
  • GPT-2는 1.5B paramerter의 Transformer로 이뤄져있고, 8개의 zero-shot 환경의 language modeling 데이터 중, 7개에서 가장 좋은 성능을 보여준다. 

Introduction

  • Machine Learning 시스템들은 large datasets와 high-capacity model들을 사용하여 supervised learning을 사용하여 뛰어난 성능을 보인다.
  • 그러나, 이러한 시스템들은 다루기 힘들고, 데이터 분포나 task 변화에 따라 민감하다. 
  • 현재(그 당시) 시스템들은 generalist라기 보다는, 좁은 분야의 전문가의 특성이 있다.(task specific에 특화되어 있다는 뜻) 이 논문에서는, 다양한 분야에서 사용할 수 있는 general system으르 만들고자 한다.
  • 저자들은 single domain dataset으로 single task tranining을 진행하는 것이, 현재(그 당시) 시스템이 generalization을 잘 못하는 이유라고 생각한다. 
  • robust sytstems을 만들기 위해, training과 test에서 다양한 domain과 task의 데이터셋을 사용해야한다. 최근(당시)에는 몇몇 benchmarks 등이 등장했다.(GLUE, decaNLP)
  • Multitask learning은 general performance를 향상시키기에 좋은 방법이지만, NLP에서는 초기 단계이다.
  • 한편, LM 분야에서는 pre-training과 supervised fine-tuning을 결합하는 방식을 주로 사용한다. (GPT-1, BERT 등등)
  • 이 논문에서는 LM의 down-stream 단에서도 zero-shot learning으로 학습할 수 있는 새로운 모델을 소개한다. 이 새로운 LM은 zero-shot setting에서도 좋은 성능을 보인다. 

Approach

  • GPT-2에서도 일반적인 Language Modeling을 사용한다. 

  • 일반적인 signle task에서 conditional dsitribution은 p(output|input)이다.
  • general system에서는 다양한 task들을 처리해야하기 때문에, conditional diestribution은 p(output|input, task)이다. 
  • task conditioning은 종종 architectural level에서 실행되기도 하고(task specific encoder & decoder), algorithmic level에서 수행되기도 한다. 어떤 연구에서는 language가 어떤 task를 수행할지를 지정해주기도 한다. 
  • 언어 모델링은 symbol을 예측하는 supervision 방식으로 학습하지 않아도, 학습 가능하다. supervised objective의 최솟값과 unsupervised objective이 최솟값이 동일하기 때문에, 같게 수렴하기 때문이다. unsupervised learning은 속도는 느리지만, supervised learning과 같게 optimize 될 수 있다.

[Training Dataset]

  • 기존 LM의 학습에는 single domain의 text(뉴스 기사 등)가 사용되었다.
  • 이 논문에서는 크고 다양한 데이터셋을 수집하여, 다양한 task와 context를 커버할 수 있도록 데이터 셋을 다양화하였다. 
  • 다양하고, 풍부한 text를 수집하는 가장 좋은 방법은 Common Crawl 같은 곳에서 web scrape을 진행하는 것이다. 하지만, 기존 LM 데이터셋보다 양이 많음에도 불구하고, 데이터의 quality 이슈가 있다.
  • 어떤 방법들에서는 Common Crawl에서 small subsample만을 이용해서 좋은 성능을 보였다. 하지만, 이 방법은 특정 task의 성능을 향상 시켜주지만, 이 논문에서는 어떤 task 등 커버할 수 있도록 학습을 진행할 수 있는 데이터셋을 수집하고자 했다. (특정 분야만 수집하면, task specific이 한정되기 때문에)
  • 이를 위해, 이 논문에서는 document quality를 강조하는 새로운 web scrape을 만들었다. 새로운 web scrape은 인간에 의해 filtered된 문서만 수집한다. 
  • Reddit에서 3 karma(안써봐서 모르겠지만, 좋아요 같은 것 인가보다.) 이상을 받은 데이터만 수집하여, manual filtering 하였다. 
  • 결론적으로 만들어진, WebText 데이터셋은 45 million개의 링크를 포함한다. HTML에서 text를 뽑기 위해, Dragnet과 Newspaper content extractor들을 사용하였다. 

[Input Representation]

  • charactre와 word level의 중간을 사용하는 Byte Pair Encoding을 사용하였다. 
  • 이러한 방식은 word-level LM의 성능과 byte-level 방법의 generality의 장점을 결합할 수 있다. 

[Model]

  • 이 논문에서는 LM의 base architecture로 Transformer를 사용했다. GPT-1 모델을 약간의 변화를 제외하고 그대로 사용하였다.
  • Layer normalization은 각 sub-block의 input으로 이동하였고, final self-atteention block 이후에 추가 layer normalization을 더했다. 
  • Vocuibulary는 50257개로 증가시켰고, context size는 최대 1024개까지 사용하였다.  

 

Experiments

  • 기존 모델들과의 비교를 위해서 4개의 LM의 space size에 따라 이 모델의 성능을 log-uniformly하게 계산해서, 성능을 구했다.
  •  가장 작은 건 GPT-1과 parameter 정도의 크기이고, 2번째로 작은 것은 BERT 사이즈의 parameter를 가지고 있다. 

Language Modeling

  • 이 논문에서는 BPE를 사용하기 때문에, tokenization 같은 pre-processing이 필요하지 않다.
  • WebText LM dataset을 이용하여, log-probabilty를 이용하여 학습한다. 
  • <UNK>은 WebText에서 거의 나타나지 않는다. (40 billion bytes 중 26회만 등장)
  • Zero-Shot으로 수행된 모델들 간의 비교에서, LM 분야의 8개 task 중 7개에서 SOTA를 달성하였다.  
  • Children's Book Test, LAMBADA 데이터셋에서 좋은 성능을 보였다. 
  • Summarization과 QA, Translation에서는 좋은 성능을 보이지 못하였다.

Conclusion

  • 이 논문에서는 충분하고 다양한 데이터셋으로 학습된 large language mode이 많은 domain들과 dataset들에서 사용될 수 있음을 보여주었다. 
  • GPT-2는 zero-shot으로 학습된 모델 들중, 8개의 testset 중 7개에서 SOTA 성능을 보여주었다.

 

Reference

OpenAI. (2019). Improving Language Understanding by Generative Pre-Training. Retrieved from https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

 

 

총평

이 논문에서는 사실, 새로운 구조의 모델이나 학습방법을 제시하는 기존 LM 분야의 논문들과 달리, Unsupervised Learning으로 Language Model을 학습해 보았다는 데에 있다. 이 과정에서 학습 과정에 Parameter의 양과 성능의 연관성을 언급하여, 추후에 LM 분야의 구조들이 크기를 더욱 늘리는 데 기여했다고 생각한다. 

반응형

GreaseLM 배경 설명

  • GreaseLM은 2022년 Stanford에서 나온 ICLR 논문이다.
  • 사실 KG에 대해, 전문적인 지식은 없지만, 최근 Language Model에 KG 정보 등을 이용해서 성능을 높이려는 방식이 많이 사용되고 있는 것 같아 흥미가 생긴다.
  • 이 논문은 KG를 단순 LM의 학습을 도와주는 용도가 아니라, 두 modality 간의 정보를 섞는 fusion 개념으로 KG와 LM을 사용하였기에 굉장히 가치가 있는 논문이라고 생각한다.  

Abstract

  • 복잡한 텍스트 내러티브 질문에 대답하기 위해서는 Context와 그 안에 숨겨진 지식들 모두에 대한 추론이 필요하다.
  • 현재(그 당시) QA 시스템들에 많이 사용되는 pretrained Language Model(LM)은 concept 들 간의 관계를 robust 하게 표현해주지 못한다. 
  • Knowledge Graph(KG)은 구조화된(관계에 대한) representation들을 가지고 있기 때문에, LM과 함께 사용되곤 한다.
  • 하지만, KG representations들과 language context 정보들을 어떻게 효과적으로 융합할 수 있는지에 대해서는 미지수이다. 
  • 이 논문에서는 GreaseLM이라는 LM에서 추출된 representations(laguage context 정보)와 GNN의 정보들(KG 그래프 정보)을  융합해서 사용하는 새로운 모델을 제시한다. 
  • 이 모델에서는 각 modal 들이 다른 modal에게 정보들을 전달하는 구조로 정보를 융합한다.  

 Introduction

[Language Model]

  • QA task에서는 textual context 정보뿐 아니라, 세상에 대한 지식(박학다식을  이렇게 표현해 놓았다.)이 필요하다. 
  • 최근에는 (그 당시) large pretrained LM을 QA 분야에 사용하는 것이 주류가 되었다. pretrained LM의 경우에는 pre-training 과정에서 수많은 text 데이터들을 학습하기 때문에, 그 과정에서 텍스트들에 함축된 knowledge 들을 학습하게 된다. 
  • 이러한 pretrained LM 모델들은 좋은 성능을 보이지만, fine-tuning 단계에서 학습한 데이터와 다른 유형의 문제를 풀 때는 어려움을 겪는다. 
  • 그것은 이러한 모델들이 Question과 Answer 사이에 pattern에 의존하지, 그 사이의 reasoning에는 많이 의존하지 않기 때문이다. 이러한 reasoning은 context 데이터와 implicit external knowledge가 합쳐진 정보이다. 

[Knowledge Graph]

  • 기존의 연구들중 KG를 도입해서 구조화된 reasoning과 query answering에 효과를 본 연구들이 있다.
  • 하지만, text 문장으로 구성된 question & answer와 KG의 knowledge를 어떻게 결합할 것인지에 대해서는 아직 정답이 없다.
  • 좋은 reasoning을 위해, 두 modal 정보를 함께 사용하기 위한 연구들이 있었다. 하지만, 그 연구들은 얕고 non-interactive 한 방식(각 modal의 정보를 각각 encoding 하고 prediction 결과를 섞거나, 한 modal의 정보를 활용하기 위해 다른 modal을 사용하는 방식)을 사용하였다.
  • 결과적으로, 이러한 방법들은 두 modal 간의 유용한 정보들을 어떻게 섞을 것인지에 대한 방법을 고민하게 하였다. 

[Grease LM]

  • 이 논문에서는 GreaseLM이라는 LM과 KG가 여러 layer에 거쳐서 정보를 fusion하고 exchange 할 수 있는 새로운 구조를 제안한다. 
  • GreaseLM은 context를 처리하는 LM과 KG를 처리하는 GNN으로 구성된다. 각각 LM와 GNN Layer를 거친 후, 각 modality끼리 정보를 교환할 수 있는 bidirectional interactive schema를 통해, interaction representation을 담게 된다.
  • 이를 위해, LM을 위한 Interaction Token과 GNN을 위한 Interaction Node를 사용한다. 
  • GreaseLM은 다른 LM 구조에 비해 QA에서 좋은 성능을 보인다. (기존에 KG를 같이 사용하던 모델도 포함해서)
  • 특히, GreaseLM은 효과적인 Reasoning이 필요한 질문들에서 매우 좋은 성능을 보인다.

Related Work

  • KG 정보를 사용하는 것은 QA 분야에서 각광받고 있다.
  • 몇몇 연구들은 text 처리를 위한 LM과 knowledge 처리를 위한 graph를 사용해서 정보를 융합하는 방법을 사용한다.
  • 다른 연구들은 한 KG 정보를 text 데이터를 활용하는데 도움을 주는 용도로 사용한다. (KG를 활용한 QA example Augmentation 등)
  • 반대로 text 데이터를 활용하여 KG를 뽑아내는 데 사용하는 연구들도 있다.

→ 정리하자면, 기존에도 KG와 text 데이터를 같이 사용하는 연구들은 많았으나, 한 modal의 데이터를 다른 modal에 간접적으로 사용하는 등, 효과적으로 두 정보를 결합하지 못했다.
 

  • 최근에는 두 modality들의 정보의 deeper integration을 위한 방법들이 연구되고 있다.
  • 어떤 연구는 LM이 implicit knowledge(Embedding을 의미하는 것 같다.)을 만드는 것을 학습하기 위해, KG를 사용한다.  하지만, 이 방법은 LM을 학습할 때를 제외하고는 KG 정보를 사용하지 않기 때문에 reasoning을 guide 할 수 있는 중요한 정보를 사용하지 못한다. (실제 KG 정보를 사용하지는 않는다.)
  • 더 최근에는, QA-GNN이라는 모델이 LM과 GNN이 message passing을 통해, 같이 학습하는 방법을 제안하였다. 하지만, 이 논문에서는 LM의 textual component를 표현하는데 single pooled representation을 이용하여, text representation에 대한 update에 한계가 있다.
  • 기존 방법들과 다르게, 이 논문에서는 LM의 각 token representations들과 GNN의 여러 layer들의 정보가 섞일 수 있어, 각 modality에서 다른 modality의 정보를 반영할 수 있다. 
  • 동시에 각 modality들의 구조를 유지하여 함께 사용한다.

→ 정리하자면, 그래도 최근에는 LM과 QA의 정보를 효율적으로 사용하는 구조를 제안해 보았지만, 아직은 제한적으로 사용되고 있다. 이 논문에서는 text 내의 token과 실제 KG의 연결 정보가 잘 결합될 수 있는 구조를 제안한다. 
 

  • 어떤 연구들은 KG와 LM을 pretraining 단계에서 같이 활용하기도 한다.
  • 하지만, QA에서와 비슷하게 multiple layer들에서의 interaction을 고려한 것이 아닌, knodwledge를 language에 이용하는 형식으로 사용된다.

GreassLM

  • 이 논문에서는 lareg-scale LM을 KG를 이용한 grpah reasoning 모듈로 augment 하였다.
  • GreaseLM은 2개의 component들로 구성되어 있다. 1) unimodal LM layers: input token(text 데이터)으로만 학습함 2) upper cross-modal GreaseLM layers: lanugage sequence들과 linked KG로 학습되어, 두 modality의 정보를 함께 사용할 수 있음. 논문에서는 LM layer들을 N개, GreaseLM layer를 M개 사용해서, 총 N+M개로 이뤄진다고 말하고 있다.
  • Notation : multiple choice question answering에서 context paragraph는 c, question은 q, candidate answer set은 A이고, 모두 text로 구성되어 있다. 이 논문에서는 external knowledge graph(KG)를 G로 정의하여 content에 대한 background knowledge를 제공하는 데 사용한다. QA 문제는 c, q, A, G가 있을 때, A에 속하는 a를 찾는 것이 목표이다. 일반성을 위해, 본 논문에서는 정답을 a로, natural language의 sequence의 각 token을 w로 1부터 T까지 나타낸다. KG의 각 노드는 e로 1부터 J까지 나타낸다.  
  • Input  Representation
    • 우선 context와 question, answer를 separator token 등을 이용해서 concatenate 한다.(BERT에서 사용하던 방법이다.) 이 token을 tokenize 해서 combined sequence를 구성한다. {w1,..., wT} 
    • Input sequence를 KG에서 subgraph(현재 Question과 관련 있는 정보를 제공)를 뽑는 데 사용한다. subgraph는 {ㄷe1,..., eJ}
    • KG Retrieval : QA context가 있을 때, subgraph를 뽑기 위해 기존 다른 논문(QA-GNN: 나중에 읽어봐야겠다.)의 방법을 사용한다. subgraph의 각 Node는 context, question, answer와 연결되어 있는지 또는 해당 Node의 이웃으로 연결되었는지에 따라 유형이 할당된다. 
    • Interaction Bottlenecks : cross-modal GreaseLM layers에서 두 modality들 간의 정보가 섞인다. 이를 위해 special interaction token을 사용하는데, 이것을 w_int로, special interaction node를 e_int로 정의한다. 
  • Language Pre-Encoding
    • unimodal encoding component에는 token과 segment와 positional embeddins들을 합해서 input으로 사용하여, LM layer에 통과시킨다. l번째 layer를 거친 pretrained representations들은 아래와 같이 정의된다. LM-Layer들의 parameter들은 pretrained model을 사용하여 이미 학습되어 있는 상태이다.
    • 앞서 언급한 대로, LM-layer의 총개수는 N개이다.
  • GreaseLM
    • GreaseLM은 cross-modal fusion component를 사용한다.
    • GreaseLM layer는 각 정보를 독립적으로 encode 하고, 그 정보들을 spectial token과 node의 bottleneck을 통해서 fuse 한다. 
    • 3가지 component로 구성되어 있다.
      • transformer LM encoder block : language context를 encoding 함.
      • GNN layer : KG entitie들과 relation들의 정보를 담음
      • modality interaction layer : interaction token과 interaction node 간 정보를 교환함. 

[Language Representation]

  • l번째 GreaseLM layer의 feature는 Language Pre-Encoding 된 representations에 추가적으로 l번의 transformer LM encoder를 거친 정보이다. 
  • GreaseLM Layer의 l번째 embeddings는 다음과 같이 나타난다.  
  • 뒤에서 추가적으로 언급하겠지만, h_int는 KG의 representation을 encode 하는 역할을 한다. 

[Graph Representation]

  • GreaseLm layer는 QA example과 관련된 local KG 정보도 함께 encoding 한다. 
  • Graph를 뽑기 위해, 처음으로 initial node embeddings를 pretraned KG embeddings를 통해 뽑는다. 이때, iteraction node, e_int의 initial embedding은 random 하게 초기화된다. 
  • 그러고 나서, GNN의 각 layer는 현재 node embeddings들을 입력으로 받아, information propagation을 수행하고, 이를 통해 fuse 된 node embedding을 생성한다. 
  • 이때, 사용되는 GNN은 QA-GNN에서 사용된 방법을 따른다. 

N: e_j의 neighborhood, m_sj:e_s가 e_j에게 보내는 message, a_sj:message에 대한 attention, f_n: 2 layer MLP

  • Entity들 간 message는 relation과 node type을 이용해 다음과 같이 정의된다.  

f_r : 2 layer MLP, r_hat_sj: relation embedding, u_s, u_j : node type embedding

  • message를 어느 비중으로 보낼 것인지, 결정하는 a_sj는 다음과 같이 결정된다. 

f_q, g_k : linear transformation

→ 해석하자면, GreaseLM의 node representation은 전 단계 layer의 node들과 attention을 적용한 neigbor node들이 보낸 message들의 합으로 나타난다.
이때, message는 1) enitity들의 node type embedding과 relation embedding을 이용한 MLP output과, 2) neiborhood의 node type embedding에 두 entity 간 relation representations, 3) neighborhood의 l-1번째 LM embedding representation을 linear transformation 한 값으로 구해지고, 
message는 query(neighborhood의 l-1번째 LM embedding representation과 그의 node type embedding의 linear transformations)와 key(현 entity의 l-1번째 LM embedding representation과 그의 node type embedding과 neighborhood 간의 relation을 linear transformation)한 값으로 구해진다.
이때, 두 사이의 relation 값의 비중은 q와 k의 곱으로 구해지고(consine similarity 같은 개념인가 보다.) 이것을 neighborhood 간 normalization을 통해 0~1 사이의 가중치를 구한다. 
(자세한 내용은 QA-GNN을 참고하는 편이 좋아 보인다. 그래도 천천히 읽다 보면 어떤 걸 의도하는 이해가 간다.)
 
[Modality Interaction]

  • LM과 GNN이 각각 정볼르 embedding 한 이후에, modality interaction layer(MInt)를 통해 두 modality들의 정보가 interaction token과 interaction node 간의 bottleneck을 통해 섞이길 바란다.
  • 이때, l번째 MInt에서는 interaction node의 embedding과 interaction token의 embedding을 concate 한 값을 Input으로 받아서 처리하고, output은 그 결과를 split 해서 각각 가져간다. 
  • MInt로는 2 layer MLP를 사용한다. interaction token과 interaction node를 제외한 다른 token 및 node들은 이 단계에서 사용되지 않는다.  하지만, 직접적으로 MInt의 Input으로 사용되지는 않더라도, interaction node와 interatction token에는 각각 다른 token 및 node의 정보가 담겨있다. (interaction node는 relation을 통해, 다른 entitiy들의 영향을 포함하고, interaction token은 transformer의 encoding 단계 중, 다른 token 정보를 포함하기 때문에 그런 것이다. 이 부분에서 아이디어가 매우 좋다는 생각이 들었다.)

Experiments

  • CommonsenseQA와 OpenBook QA에서 기존 모델들 (LM only or LM + KG) 보다 좋은 성능을 보여준다. 

Conclusion

  • 이 논문에서는 GreaseLM이라는 knowledge graph와 language model 간의 정보를 교환할 수 있는 새로운 구조를 제안했다.
  • 실험결과는 기존의 KG+LM의 구조나 LM 단독으로 사용된 것들에 비해 좋은 성능을 보여준다. 
  • 특히, 뉘앙스 등의 reasoning이 포함된 문제에서 더욱 효과적이다. 

출처

Greaselm: Graph reasoning enhanced language modelsX Zhang, A Bosselut, M Yasunaga, H Ren, P Liang, CD Manning, ...International conference on learning representations, 2022

총평

평소 word embedding을 보면서, 저절로 만들어지는 KG 아니야? 하는 생각을 가지고 있었다. 그만큼 KG와 LM은 비슷한 구조이면서, 서로를 보완해 줄 수 있는 데이터인 것 같다. 사실 두 정보를 함께 사용하는 논문이 이미 많이 나왔을 줄 알았는데, 그만큼 매우 어려운 것 같기도 하고, 역시 transformer의 위대함이 아닌가 싶다. 

반응형

BERT 배경 설명

  • BERT는 Google에서 2018년 10월에 나온 NLP 논문이다.
  • 사실 지금은, Chat-GPT 때문에 GPT가 자연어 처리의 대명사가 되었지만, GPT 전에는 BERT가 자연어 처리의 대표 모델로 불리곤 했었다. 
  • BERT는 성능이 매우 좋아서, 아직도 많은 NLP Task에서 사용되고 있다.
  • 개인적으로 이 논문을 읽으면서, 2018년 6월에 나온 GPT-1 논문을 굉장히 많이 신경 쓰고 있다는 인상을 받았다. 

Abstract

  • 이 논문에서는 BERT(Bidirctional Encoder Representations form Transformers)라는 새로운 모델을 소개한다.
  • 기존의 (그 당시) 유행하는 모델들(특히 GPT-1)과 달리 BERT는 단어의 양방향 데이터(이전 데이터와 이후 데이터 모두)를 사용한다.  
  • 이러한 구조로 BERT는 별도의 task-specific한 변형 없이, 하나의 layer만 추가해도 대다수 NLP task(11개)에서 좋은 성능을 보여준다.

 Introduction

[문제 제기]

  • 기존의 pre-trained language representations들을 specific 한 task에 적용하는 방식은 feature-basedfine-tuning으로 크게 2가지로 나뉘어진다. 
    • Feature-based : task-specific한 구조를 가지고 있고, pre-trained 된 representations들을 추가적인 feature로만 사용한다. (ELMo)
    • Fine-tuning : 최소한의 task-specific한 parameter들을 가지고, 모든 pre-trained parameter들을 fine-tuning 해서 사용한다. (GPT)
  • 하지만, 기존의 방식들은 pre-trained model을 학습하는 과정에서 이전 데이터들만 사용하는 unidirectional launguage models (단방향 모델)이다. 
  • 이러한 방식은 pre-trained representations들의 효과를 감쇠한다. 특히, fine-tuning model에서 이런 감쇠 효과는 더 크다. 

[모델 제시]

  • 이 논문에서는 "BERT"라는 모델을 제시하여, fine-tuning 방식의 pre-trained language model의 성능을 향상 시킨다.
  • BERT는 "masked language model(MLM)" pre-training objective를 이용하여, 단방향 데이터만을 사용하는 기존의 한계를 경감한다. 
  • 은 input 데이터의 token들에 randomly 하게
  • 기존 left-to-right language model pre-training과 달리, MLM은 left와 right context 정보를 모두 활용할 수 있다. 
  • 추가적으로 "next sentence prediction"을 통해, text-pair 들의 representation들을 학습한다. 

 Model

  • BERT는 기존의 Fine-tuning 방법들(특히 GPT-1)처럼 2개의 step으로 구성된다.  (1) pre-training (2) fine-tuning

  • Model Architecture : BERT의 모델 아키텍처는 Transformer를 그대로 사용했다. Paper에서는 두 버전의 BERT 모델을 소개한다. 첫 번째로, GPT와 비교하기 위해, 동일 모델 사이즈를 가지고 있는 BERT BASE(12개의 Layer, 768 Dimension, 16개 Self-Attention)이다. 두번째로, BERT LARGE(24개의 Layer, 1024 Dimension, 16개의 Self-Attention) 이다. 
  • Input/Output Representations : BERT는 WordPiece Embeddings를 사용한다. BERT는 다양한 NLP task에 응용할 수 있도록, 단일 문장이나 문장의 짝 모두를 input으로 사용할 수 있도록 한다. 모든 문장의 맨 첫 token은 special token인 "[CLS]"로 시작하고(해당 Token 등은 sentence 단위의 classification에 활용된다.), 두 문장이 Input으로 들어올 때는 두 문장 사이에 "[SEP]" token을 넣어 구분하고, 어느 문장에 소속된 token인지 구분할 수 있는 learned embedding을 문장을 이루는 각 token에 추가했다.(Segment embeddings)

아래 그림은 BERT의 input representations를 나타내는데, token 자체의 embeddings와 어느 문장에 속하는지를 나타내주는 Segment embeddings, token의 문장 내 위치를 가르쳐주는 Position embeddings로 구성되어 있다. 

 

 

  • BERT의 Pre-Training 단계
    • 논문 내내 강조하는 것이, BERT는 단방향 모델이 아닌, 양방향 Language model을 사용한다는 것이다. 
    • Masked LM 
      • 직관적으로 생각해도(수능 빈칸 추론 문제만 생각해 봐도) 단어를 추정할 때, 그 단어의 앞부분만 보는 것이 아닌 뒷부분에서 힌트를 얻을 수 있다. 하지만, 기존 모델들은 한쪽 방향의 단어들만으로 Language model을 학습했다. BERT는 지금껏 계속 강조해 온 대로, 양방향의 데이터를 모두 활용하기 위해 Masked LM을 제시한다. 
      • Masked LM은 일정한 확률로 무작위로 input token을 가리고("[MASK]" token으로 대체), 문장 내 다른 단어들을 통해, 해당 token을 추정하는 방식(기존의 LM과 동일하게 cross-entropy)으로 학습된다
      •  이런 Masked LM에는 한 가지 문제가 있는데, pre-training에 빈번하게 등장하는 "[MASK]" token이 실제 fine-tuning 과정에서는 없다는 것이다.(pre-training 학습을 위해 임의로 넣어주었기 때문에) 이를 해결하기 위해, 논문에서는 token을 무조건 [MASK]로 대체하는 것이 아닌, 확률적으로 바꿔주는 스킬을 사용한다. 따라서, 한 문장에서 15% 정도의 token의 위치를 1) 80% 확률로 [MASK] token으로 대체, 2) 10% 정도 random 한 token으로 대체, 3) 10%는 바꾸지 않고 원래 단어로 둔다. → 특정 token 들에 의지해서 masked 된 token을 추정하는 것을 방지해 주는 Augmentation 효과도 있을 것이다.  
    • Next Sentence Prediction
      • 앞부분까지는 한 문장 내에서 단어를 추정하기 위한 방법이었다. 하지만, 많은 NLP task들은 문장 간의 관계가 중요한 경우가 많다. 이러한 문장 간의 관계는 기존 Language model로는 잡 포착하기 어려웠다.
      • 문장 간의 관계를 학습하기 위해, BERT에서는 next sentence prediction task를 이용하였다. 
      • 앞서, 문장의 Embeddings 중 Segment Embedding이 존재하였는데, 실제 데이터들은 한 문장 뒤에 다음 문장이 오는 구조로 되어있다. (실제 문장이든, QA 문장이든 선후 관계가 존재한다.) 
      • next sentence prediction task에서는 실제 데이터에서 뒤에 오는 문장을 임의로 변경하여, false 데이터를 만들어서 두 문장 간의 선후 or 인과 관계에 대한 binary classification을 학습한다.  
      • 이러한 구조는 매우 간단하지만, QA 등의 문장 간의 인과 관계가 중요한 task에서 매우 효과적인 성능 향상을 보인다고 한다.
  • BERT의 Fine-tuning 단계
    • BERT의 fine-tuning 과정은 Transformer 구조를 그대로 이용하였고, Input의 형태가 단일 문장이던, 문장의 짝이던 동일하기 때문에 매우 직관적이다. 
    • 언급한 대로, Input의 형태는 task에 상관없이 모두 동일하고, Output은 앞서 문장 앞에 넣어주었던 [CLS] token을 classification을 위한 output layer의 input으로 넣어 학습하면 된다.
    • Pre-training 과정은 매우 많은 시간과 H/W 리소스가 필요하지만, fine-tuning은 구조가 간단하고 simple하기 때문에 inexpensive 한 과정이라고 한다. (사실 이 특징 때문에, AI의 패러다임이 모델 중심에서 데이터 중심으로 바뀐 것 아닌가 싶다.) 

 

Experiments

  • BERT를 이용해서 11개의 NLP task를 실험했다. 
  • GLUE(General Language Understanding Evaluation)를 포함한 다양한 언어 모델에서 다른 모델들을 능가하는 performance를 보여준다. 
  • 실험에서 놀랄만한 점은, BERT가 인간보다 높은 성능을 보이는 테스트도 있다는 것이다. 

→ BERT도 GPT-1과 마찬가지로, 논문 자체가 실용성에 초점을 맞추고 있다 보니, 학습 부분을 자세히 설명해 놓았다. 자세한 내용은 논문을 직접 참고하는 게 좋을 것 같다. 

 

Conclusion

  • 최근에(그 당시에) 수많은 unlabeled 데이터를 통해, unsupervised pre-training을 진행하는 것이 NLP 분야에 엄청난 발전을 이뤘다. 
  • 이 논문의 가장 큰 contribution은 이러한 방법을 통합하는 bidirectional 구조를 제안했다는 것이고, 이러한 pre-trainin g구조가 다양한 NLP 분야에 활용할 수 있다는 점이다.   

출처

Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186, Minneapolis, Minnesota. Association for Computational Linguistics.

 

총평

지금 생각하면 당연한 것인데, Bidirectional 구조를 제안하고, 실제 NLP 분야에서 좋은 성능을 보여줬다는 것이 신기하다. 개인적으로 논문 전체가 GPT를 신경 쓰고 있다는 느낌이 들어, 역시 Google 사람들은 혜안이 있구나 하는 생각이 들었다. 아직 BERT 뒤에 논문들을 읽어보지 못했지만, 전체적으로 NLP 논문들이 작은 단위(근처 단어)를 보다가, 큰 단위(이 논문에서는 next sentence prediction으로 인접 문장까지) 봤다는 것을 봐서, 점점 참조하는 범위가 늘어나겠구나라는 것을 유추해 볼 수 있을 것 같다.  

반응형

GPT-1 배경 설명

  • GPT는 최근 가장 유명한 딥러닝 모델 중 하나다. GPT-1은 2018년 OpenAI에서 발표한 자연어 생성 모델로 다양한 자연어 처리 Task에서도 좋은 성능을 보여준다. 
  • GPT-1은 2017년에 나온 Transformer 아키텍쳐를 기반으로 만들어졌다. 
  • 개인적인 생각으로는 이 논문이 과거 모델 중심의 딥러닝 발전 방향에서 지금의 학습 & 데이터 중심의 방향으로 변하는 계기가 되지 않았나 싶다.  

Abstract

  • 자연어 처리는 이전까지(GPT-1 생성까지) 다양한 분야에서 발전을 이뤘다. 
  • 하지만, labeling 되지 않은 corpora(말뭉치) 데이터는 풍부하지만, 특정 자연어 처리 task 들을 학습하기 위한 label 데이터는 많지 않다.
  • "GPT-1"에서는 다양한 labeling되지 않은 다양한 텍스트 데이터들을 통해, 언어 모델을 "generativew pre-training" 하고,  각 task에 맞는 discriminative fine-tuning"을 하는 구조를 제안한다. 
  •  "GPT-1"에서는 fine-tuning 과정에서 "task-aware input transformation"을 사용해서 model 구조를 최소한으로 바꾸면서 효과적인 fine-tuning을 가능하게 한다고 한다. (뒤에서 무슨 말인지 확인해 보자)
  • "GPT-1"은 12개 task 중 9개 task에서, 애초에 그 목적으로 학습한 모델들을 넘어서 SOTA를 달성했다고 한다. 

Introduction

  • 기존 딥러닝 모델들에서 학습이 까다로웠던 이유는 labeling 된 데이터를 수집하는데 한계가 있기 때문이다. (기존 딥러닝 모델들이 실생활에 적용하기 까다로운 이유이기도 했다.)
  • 단순, 특정 task 학습을 위한 labeling된 데이터뿐 아니라, 풍부한 unlabeled 데이터를 함께 사용해서 언어 모델을 학습하는 것은 다양한 text의 representation을 학습하여 언어 모델의 성능을 향상할 수 있다. (word embedding 등등)
  • 하지만, unlabeled text에서 word-level의 information을 학습하는 것은 2가지 어려움이 있다. 
    • transfer를 위한 좋은 text representations을 뽑기 위해, 어떻게 학습하는 것이 효율적인지 알 수 없다.
    • 이렇게 학습된 representations들을 target task에 전달하기 위해 가장 효율적인 방법이 무엇인지 알 수 없다. 
  • 이 논문에서는, 언어 모델 학습을 위해 unsupervised pre-training과 supervised fine-tuning을 잘 조합해서 언어 모델의 성능을 향상 시킬 수 있는 방법을 제시한다.
  • GPT-1의 목표는 조금의 task adaptation만으로 광범위한 task들을 커버할 수 있는 universal representation들을 학습하는 것이다. 
  • GPT-1의 학습은 2가지 과정으로 진행된다.
    1. language modeling을 통해서 unlabeled 데이터를 모델에 학습한다.
    2. supervised 학습을 이용해서, target task에 맞도록 모델의 파라미터를 tuning 한다. 
  • 이를 위해, GPT-1에서는 "Transformer"를 이용한다. (Transformer의 메모리 제약이 적다는 점이 다양한 task에 적합하다고 한다.) 
  • GPT-1은 12개의 자연어 처리 task들 중 9개에서 SOTA를 달성할 정도로 광범위하고, 좋은 성능을 보인다. 

Framework

  • GPT의 학습은 Introduction에 언급하대로 1) unsupervised learning으로 unlabeled 데이터의 pre-training 하는 과정과 2) Task에 맞는 labeld 데이터로 fine-tuning하는 과정으로 진행된다.
  • Unsupervised pre-training 과정

Unlabeled 데이터로 모델을 pre-training하는 과정에서는, 일반적인 language model의 objective function을 따른다. (이전 단어들을 통해, 다음 단어들을 추측할 확률이 높도록 학습)

 

k: context window, T_i : i번째 Text의 단어 수, N: 문서 수  

 

 이 Paper에서는 multi-layer Transformer decoder를 SGD를 이용해서 pre-training을 학습했다고 한다. 

이 Paper에서 사용한 모델은 Transformer의 Decoder 부분만을 사용해서 학습한 방식을 따랐다고 한다. (Generating wikipedia by summarizing long sequences)

U: tokens들의 context vector, W_e : Token Embedding Matrix, W_p: position embedding matrix, n: layer 개수

→ pre-training 과정을 요약하자면, Transformer의 Decoder 모델을 이용하여, 일반적인 언어모델 학습(이전 단어들로 다음 단어를 잘 추정하도록 학습) 한다. 이 과정은 별도의 Labeling이 필요 없이, 단어 간의 context 정보를 Mapping 할 수 있도록 해준다. 

 

  • Supervised fine-tuning 과정

Unsupervised pre-training 과정 후에, 각 task에 맞는 역할을 수행하도록 parameter를 fine-tuning 하는 과정이다. fine tuning 된 모델의 마지막 단에 linear layer를 하나 추가해서, task에 목적에 맞는 학습을 진행한다.

Labeled 데이터가 y이고, pretrained transformer의 마지막 block의 값이 h_l일 때, objective function은 다음과 같다.

즉, pre-training 된 모델 마지막 부분에 layer를 추가적으로 달아서, 원하는 task의 objective function을 따르도록 학습하면 된다는 것이다.

GPT에서는 (1) supervied model의 일반화 향상 (2) 빠른 convergence를 위해, 추가적으로 auxiliary objective를 추가해서 학습한다. 

C : labeled 데이터

Task에 맞는 supervised 모델을 학습하면서, labeled 데이터를 이용해서 language model 학습을 같이 진행한다. (이론상으로는 pre-training 과정에서는 labeled 데이터는 사용하지 않은 상태이다.)  

 

  • Task-specific input transformations
  • Text Classification처럼 간단한 Task 들은 위처럼 fine-tuning을 진행하면 된다. 하지만, 몇 가지 다른 Task들은 fine-tuning 시, input을 조금 변형해서 넣어줘야 한다.
  • 특히, pre-training 단계에서는 order 적 개념을 학습한다. (전 단어들로 다음 단어를 추정하는 등.. ) 이러한 order 관계가 필요 없는 task들에서는 input을 order 형으로 변형해 주는 과정이 필요하다.
  • 이 부분은 모델을 최소한으로 건들면서, 다양한 Task들을 커버하기 위한 방법이다. 

 

Task  Input 구성 방법
Textual Entailment premise와 hypothesis 간 delimiter tocken($)를 사용함
Similarity 각각 독립적으로 Transformer에 넣은 뒤, 두 feature를 element-wise add하여 final linear layer의 input feature로 넣음
Question Answering & Commonsense Reasoning context, answer를 붙여서 input을 구성한 뒤, 각 question들을 각각 linear layer에 태운 뒤, softmax 함수에서 normalization을 한다.

Experiments

→ 아무래도, 논문 자체가 실용성에 초점을 맞추고 있다 보니, 학습 부분을 자세히 설명해 놓았다. 자세한 내용은 논문을 직접 참고하는 게 좋을 것 같다. 

  • Unsupervised Pre-training Setup 
    • Dataset : Unsupervised Pre-training을 위해, BooksCorpus dataset을 사용했다. 
    • Model : original transformer 모델을 따랐다. transformer의 12 layer의 decoder를 이용하였다. position-wise feed-forward 네트워크로 3072 dimmension의 inner states를 사용했다. Optimizer로는 Adam, Learning rate는 2.5e-4로 학습했다. L2 regularization도 도입했고, Gaussian Error Linear Unit을 activation function으로 사용했다고 한다. 기존 Transformer 논문과 달리, siunsoidal을 사용하지 않고 position embeddings을 사용했다. Tokenizer로는 spaCy를 사용했다. 
  • 실험 결과

→ 이 부분에서 각 Task의 사전 결과들에 대한 자세한 부분(모델 & 학습 데이터 & 성능이 의미하는 바)에 대해서 세세하게 잘 알지 못해서, 이 부분은 논문을 직접 참조하는 편이 좋을 것 같다. 

 

전체적으로 다양한 NLP 분야의 task에서 좋은 성능을 거두었다.(12개 task들 중, 9개에서 SOTA 성능이다.) 

 

 

Conclusion 

  • 이 논문에서는 unlabeled 데이터로 pre-training을 진행하고, 각 task에 맞는 labeled 데이터를 통해 supervised learning으로 좋은 성능을 보여주는 학습 방법에 대해 제시한다. 
  • Pre-training 단계에서는 다양한 word 간의 관계와 long-range dependencies 등이 학습되고, 이 정보들이 Fine-tuning 과정을 통해, 각 task들의 학습에 유용하게 사용된다.
  • 이러한 학습 방법은 12개의 NLP task 중 9개에서 SOTA를 기록할 정도로 powerful 하다. 

출처

Improving Language Understanding with Unsupervised Learning (lec Radford, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever)

 

총평

이 논문에서는 복잡한 수식이나, 새로운 모델을 제시한 것은 아니다. 하지만, NLP 분야에서 unsupervised 방법으로 pre-training 하고, supervised 방법으로 모델을 학습하는 개념을 장착시켜, 현재의 Chat-GPT까지 만들 정도로 NLP 분야의 매우 중요한 이정표가 된 것 같다. 

+ Recent posts