'분류 전체보기' 카테고리의 글 목록 (6 Page)

분류 전체보기

PaLM(Scaling Language Modeling with Pathways) 논문 리뷰 2023.06.29 1
Apache Spark(아파치 스파크) - (2). Spark 구조 Overview 2023.06.29 1
GPT-3 (Language Models are Few-Shot Learners) 논문 리뷰 2023.06.12 5
Apache Spark(아파치 스파크) - (1). 소개 2023.06.11 2
Python 속도 최적화 - NUMBA 2023.06.08 1
DeBERTa(Decoding-enhanced BERT with disentangled attention) 논문 리뷰 2023.06.06 1
DistilBERT(a distilled version of BERT) 논문 리뷰 2023.06.04 4
RoBERTa (A Robustly Optimized BERT Pretraining Approach) 논문 리뷰 2023.06.03 1

PaLM(Scaling Language Modeling with Pathways) 논문 리뷰

2023. 6. 29. 22:58

PaLM 배경 설명

PaLM은 google에서 2022년에 발표한 LLM 관련 논문이다.
GPT 이후의 NLP 분야의 거의 모든 논문이 그랬듯, Model Paramter를 더 크게 늘렸고, GPT-3의 흐름을 따라, task-specific 한 model이 아닌, 다양한 NLP 분야를 cover 하는 모델로 학습된다.
사실 GPT 등장 이후로 LLM 모델에서의 구조 변화는 크게 없다. Model parameter를 계속 늘리고, 이에따라 성능은 계속 좋아진다. 따라서, 기존 LLM과 달라진 부분에 집중하여 논문 리뷰를 시작한다.

Abstract

Language Model은 few-shot 방식을 사용하여, task-specific 학습에 필요한 데이터의 양을 줄이면서, 좋은 성능을 보여줬다.
few-shot에서 scaling의 효과를 확인하기 위해, 540 billions parameter로 구성된 Transformer 기반의 Pathways Language Model(PaLM)을 소개한다.
이 논문에서는 PaLM을 multiple TPU Pods 들을 효율적으로 학습할 수 있는 "Pathway" 방법을 이용하여 학습한다.
여러 language understanding과 generation 분야에서 SOTA를 달성하여, scaling의 장점을 보여준다.
특히, 몇가지 task들에서는 finetuned 방식의 SOTA를 능가하는 좋은 성능을 보여주고, BIC-bench에서 인간의 능력을 뛰어넘는다.
BIC-bench에서 model의 scale에 따라 performance가 discontinuous 한 향상을 보여준다.
또한, PaLM은 multilingual task와 code 생성에서 좋은 성능을 보인다.

Introduction

최근(이 당시) 몇년동안, 언어 이해와 생성 분야에서 large language model을 pre-training과 fine-tuning 방식으로 학습하는 방식으로 큰 성능 향상을 이뤘다.
하지만, 이러한 모델들은 finetuning 과정에서 상당한 양의 task-specific 데이터를 필요로 하고, task에 맞는 학습을 위한 cost가 든다.
GPT-3은 large autoregressive language model들로 few-shot을 진행하는 방식으로 학습하여, 많은 양의 task-specific 데이터와 model parameter updating 과정이 필요 없도록 하였다. (GPT-3 관련 내용은 아래 링크 참조)

2023.06.12 - [NLP 논문] - GPT-3 (Language Models are Few-Shot Learners) 논문 리뷰

GPT-3 (Language Models are Few-Shot Learners) 논문 리뷰

GPT-3 배경 설명 GPT-3은 요즘 많이 사용하는 ChatGPT의 근간이 된 논문으로, 2020년 OpenAI에서 NIPS에 발표한 논문이다. Language Model의 parameter가 꾸준히 늘어가는 추세였는데, GPT-3에서는 기존의 가장 큰

devhwi.tistory.com

그 후로, GPT-3 기반의 후속 모델(GLam, Gopher, Chinchilla, LaMDA 등)들이 등장해 좋은 성능을 보였다.
이러한 모델들의 성능 향상을 위한 주요 접근 방법은 다음과 같다.
1. model의 depth와 width를 늘린다. (model size를 늘림)
2. model의 학습을 위한 token의 양을 증가
3. 다양한 dataset을 사용하거나, dataset을 정제
4. sparsely activated module등으로 학습 cost는 유지하면서 model capacity를 증가
이 논문에서도 위의 방식들을 따라, 780 billion token을 이용하여 540 billion parameter를 가진 Transformer 기반 model을 학습한다.
이를 위해, "Pathways"라는 수천개의 acclerator chip들 사이에 large network 학습을 효율적으로 해주는 방식을 도입한다.
이 논문에서 소개한 모델 PaLM은 natural language , code, mathematical reasoning 등의 task들에서 few-shot 방식의 SOTA를 달성했다.

Model Architecture

PaLM은 몇가지 변경을 제외하고. Transformer의 decoder-only 모델을 그대로 따른다.
기존 Transformer 모델들과 달라진 점은 다음과 같다.
- SwiGLU Activation : SwiGLU는 Relu를 대체하기 위해, 구글이 개발한 Swish Activation 함수에 GLU(Gated Linea Unit)을 적용한 함수이다. 사용한 이유는 기존 연구들에서 성능이 좋아서라고 한다.
- Parallel Layers : 병렬 처리를 해, 기존의 Transformer block의 식을 바꿨다. Large Scale에서 15% 정도 학습 속도가 빠르지만, 성능 하락은 모델이 커질수록 거의 없다고 한다.
  - 기존 $$ y = x+ MLP(LayerNorm(x+Attention(LayerNorm(x)))) $$
  - 변경 $$ y = x+ MLP(LayerNorm(x))+Attention(LayerNorm(x)) $$
- Multi-Query Attention : query, key, value의 feature size가 [k, h]인 기존 transformer 구조와 달리, key와 value를 [1, h] 크기로 사용한다. (query는 [k, h]) 이것이 model 성능에 영향을 미치지 않으면서, 학습 시간 cost 절감에 큰 역할을 한다.
- RoPE Embedding : position embedding에 long-sequence 처리에 유리한 RoPE Embedding을 사용하였다.
- Shared Input-Output Embeddings
- No Biases : Bias를 사용하지 않았다. 이것이 large model 안정성을 높여준다고 한다.
- Vocabulary : SentencePiece(256k token)을 사용했다.

Model Scale Hyperparameters

3개의 모델(8B, 62B, 540B)을 사용했다.

Training Dataset

PaLM의 pretraining dataset으로는 high-quality의 780 billion의 token이 사용되었다.
dataset은 webpage, books, Wikipedia, news articles, source code, social media conversation등 다양한 소스에서 가져왔다.
특히, Github에서 Source code를 가져왔는데, Java, HTML, JavaScript, Python, PHP, C# 등등의 196GB의 소스 코드를 포함한다. 또한, Source code 수집 시, 중복을 제거하여 다양한 코드 등을 수집했다.

Training Infrastructure

사실 PaLM이 주목받는 이유가 Pathways를 사용하는 해당 Chapter 때문인것 같다. 아마도, Pathways를 논문으로 굳이 읽는 이유는 점점 늘어나는 LLM의 학습을 위해 엔지니어링의 최강자인 Google은 어떤 방법을 사용했을까? 때문일 것이다.

우선, PaLM의 codebase는 JAX와 T5X이고 TPU v4 Pods를 통해 학습되었다. PaLM 540B는 data center network(DCN)로 연결된 2개의 TPU v4 Pods를 통해 model parallelism과 data parallelism을 사용해서 학습되었다.
각 TPU Pods들은 3072개의 TPU v4 chip들로 구성되어 있고, 768 hosts에 연결되어 있다. (즉, 총 6148개의 chip과 1536개의 host가 존재한다.)
이 논문에서는 pipeline parallelism(layer 등의 단위의 parallelism을 사용)을 사용하지 않은 것을 큰 장점으로 여기는데, pipeline parallelism에는 몇 가지 문제가 있기 때문이다.
- pipeline 구조에서는 pipeline이 비어서 쉬게되는 devices들이 생긴다.
- 각 micro-batch의 weight를 불러오기 위해, 높은 memory bandwidth를 요구한다.
- 일부 케이스에서는 software complexity가 늘기도 한다.
이 논문에서는 pipeline 없이 PaLM 540B를 6144개의 TPU chip을 사용하여 학습했다는 것을 강조한다.
각 TPU v4 Pod은 model parameter들을 full copy 한다. (3072개 chip에 12개 방법의 model parallelism과 256개의 data parallism을 사용한다. 2가지 parallelism을 동시에 사용하는 것을 2D parallelism이라고 한다.)

[학습 방법]

forward pass에서는 data parallel axis로 weight를 모으고, 각 layer로부터 하나의 fully sharded activation이 저장된다.
backward pass 때, forward pass에 사용되었던, activation을 재사용하는 것이 아니라, activation을 다시 계산해서, 재생성하여 사용한다. 이것은 더 큰 배치에서 학습 처리량을 높이도록 해준다.

[Pathways]

PaLM은 이름대로, TPU v4 Pod들에 Pathways system을 사용한다. PaLM은 Pathways의 client-server 구조를 사용하여 pod level에서의 2가지 방법의 data parallelism을 구현한다.
Python client가 training batch의 절반씩을 각 pod으로 보내고, 각 pod은 forward와 backward computation을 data, model parallelism을 이용해 계산한다.
Pod들은 gadient를 다른 pod에 보내고, 각 pod은 local(자신이 만든 것)과 remtoe(다른 pod으로부터 받은 것) gradient를 모아서, parameter update에 사용한다.
이런 구조는 single Pod을 이용한 학습보다 정확히 2배의 throughput 증가는 일어나지 않고, 약 1.95배 정도의 throughput 증가를 이끄는데, 이것은 network적 이슈와 관련있다. 따라서, network 설계를 열심히 했다고 한다.

Training Efficiency

이전의 많은 language model에서는 accelerator efficiency를 hadware FLOPs utilization(HFU)를 통해 진행하였다. 이것은 이론적 peak FLOP 개수로 관찰되는 FLOP 개수를 나눈 것이다.
하지만, 이 지표는 약간의 문제가 있다.
- hardware FLOP의 갯수는 system-depedent와 implementation-dependent, compiler의 design chice에 따라 달라진다.
- 관찰되는 FLOP 갯수는 count와 track에 사용되는 방법론에 따라 달라진다. 이것은 hardware performance를 통해 측정되는 것이 아닌, analytical accounting을 사용하기 때문이다.
이러한 문제가 있어서, LLM training efficiency를 측정하기에 HFU는 충분치 않다.
이 논문에서는 implementation indepenet 하고 system efficiency에 따라 정확한 비교를 가능하게 해주는 model FLOPs Utilization(MFU)를 제시한다.
MFU는 observed throughput(tokens-per-seconds)를 이론상 최대 system operating peak FLOP으로 나눈 값이다.
특히, 이론상 최대 throughput은 forward와 backward pass를 계산하면 된다.
여하튼, 본인들이 만든 지표로 비교해보았을때, PaLM이 가장 효율적인 연산을 하고 있다고 한다.

Evaluation

역시, parameter를 많이 사용해서, 기존 few-shot 기반의 SOTA들을 모두 갱신하였다.

심지어 SuperGLUE등에서는 fine-tuning 기법들과 맞먹을 정도로 좋은 성능을 보여준다.

Reasoning : GSM8K에서 8-shot evaluation을 진행했을 때, 기존 SOTA인 GPT-3을 이긴다.

Few-shot의 장점인 다양한 분야에 적용성에서, 놀랄만한 부분은 Code를 고치는 것이나 Translation에서도 좋은 성능을 보인다는 것이다.

Conclusion

이 논문에서는 few-shot LM 방향으로의 연장선인 540B parameter로 구성된 PaLM을 소개한다.
PaLM은 NLP 29개 분야 중 28개에서 few-shot SOTA를 기록했다. 또한, BIG-bench에서 5-shot LaLM은 인간의 평균 performance보다 높은 성능을 보였다. source code 이해나 생성에서도 좋은 성능을 보였다.
reasoning에서 chain-of-though prompting을 사용했을 때, 좋은 모습을 보였다.
이에 따른 결론은 다음과 같다.
- few-shot NLP에서 scale에 따른 성능 향상은 아직 끝나지 않았다. (log-linear하게 증가했다.) 이 성능 향상은 사실은 discontinuous 하다.
- reasoning task들에서 보인 성과들은 중요한 의미를 갖는다. 이것은 model의 결정 과정에서 어떤 과정을 이용하여 최종 결과가 나왔는지를 end user에게 설명할 수 있게 할 것이다. 아직 멀었지만, 잘 만든 prompt가 이것을 가속화할 것이라고 한다.
- network architecture와 training schema에 많은 여지를 남겼다. Pathways를 시작으로 많은 구조들이 생겨날 수 있을 것이다.

Reference

Chowdhery, Aakanksha, et al. "Palm: Scaling language modeling with pathways." arXiv preprint arXiv:2204.02311 (2022).

총평

읽은 논문 중, 비교적 최근 논문인데, 이쯤때부터, 모델 크기가 커질수록 성능은 무조건 커진다는 가정하에, 어떻게 빠르고 효율적으로 학습할 것인가 하는 문제에 봉착한 것 같다.
적어도 NLP 분야에서는 앞으로 엔지니어와 H/W의 비중이 점점 더 커질 것 같다.

'NLP 논문' 카테고리의 다른 글

LLaVA: Vision Instruction Turing 논문 리뷰 (41)	2023.10.15
InstructGPT (Training language models to follow instructions with human feedback) 논문 리뷰 (1)	2023.07.01
GPT-3 (Language Models are Few-Shot Learners) 논문 리뷰 (5)	2023.06.12
DeBERTa(Decoding-enhanced BERT with disentangled attention) 논문 리뷰 (1)	2023.06.06
DistilBERT(a distilled version of BERT) 논문 리뷰 (4)	2023.06.04

Apache Spark(아파치 스파크) - (2). Spark 구조 Overview

2023. 6. 29. 20:17

Spark에 대해 집중적으로 공부하기 전에 Spark의 전체적인 구조와 개념들에 대해 알아보자.

Spark 기본 아키텍처

이전 글에서 언급한대로, Spark는 클러스터 자원 내에서 분산 처리를 위한 프레임워크이다. (물론, 단일 머신 내에서도 사용 가능하다.)
Spark는 클러스터 내의 데이터 처리를 총괄하는 클러스터 매니저에 Spark Application을 요청하고, 클러스터 매니저가 Spark Application에 대한 자원을 할당하는 방식으로 처리된다.
Spark Application은 2종류의 Process로 구성된다.
- Driver Process : Cluster 내의 단 하나의 노드에서 실행됨. 대한 정보, 사용자 프로그램과 입력에 대한 응답, Excutor Process의 작업에 대한 분석, 배포, 스케줄링 역할을 수행.
- Executor Process : Cluster 환경에 맞게 여러 개의 노드에서 실행될 수 있음. Driver Process가 할당한 작업을 처리하고, 진행 상황을 Driver에 전송.

스파크 아키텍처 (출처 : https://learn.microsoft.com/ko-kr/dotnet/spark/what-is-spark)

SparkSession

Spark 아키텍처를 보면, Driver process 내에 SparkSession이 존재하는 것을 볼 수 있다.
SparkSession은 Spark에서 작업을 수행하기 위한 진입점이다. (이전 버전의 SparkContext, SQL Context 등을 통합)
SparkSession은 Spark Application과 데이터 소스와의 연결, Cluster 간의 연결을 관리하고, 데이터 처리를 위한 API를 제공하는 역할을 한다.

Spark의 API

Spark는 기본적으로 Scala, Java, Python, SQL, R 등의 다양한 언어를 지원한다. 사용자들은 본인들이 편한 언어를 통해서, Spark의 API를 호출하면 된다.
이것은 Spark Session이 각 언어에서 작성된 코드를 API 형태로 받아, Spark 코드로 변환해주기 때문에 가능하다. (이 때문에, 어느 언어의 API를 사용하던 실행 시간등에 큰 차이가 없다.)
Spark는 추상화 수준에 따라 크게 2가지 종류의 API를 제공한다.
- 저수준의 비구조적 API : RDD, SparkContext, Accumulator, Broadcast Variable
- 고수준의 구조적 API : DataSet, DataFrame, SQL Table
Spark 초기 버전에는 RDD와 같은 저수준의 비구조적 API가 많이 사용되었지만, 더 복잡하고 낮은 추상화 수준을 가지기 때문에, 최신 버전에서는 DataFrame이나 Dataset과 같은 고수준의 구조적 API가 많이 활용된다.
실제 고수준의 구조화된 API들도, 실제 연산 시에는 RDD로 처리된다. (Spark 내부적 처리)

Spark 데이터 처리 방식

Spark는 데이터구조는 기본적으로 불변성의 특성(변경하지 못함)을 가지고 있다. 데이터 변경을 위해서는 원하는 변경 방법을 Spark에 "Transformation"라는 명령을 보내야한다.
Spark의 연산은 기본적으로 지연 연산 방식을 사용한다. 데이터에 직접적인 수정을 하지 않고, Raw 데이터에 적용할 Transformation의 실행 계획을 생성하고, 물리적 실행 계획으로 Compile한다.
실행 계획에 대한 실제 연산은 "Action" 명령을 통해 이뤄진다. (즉, 실제 사용될때 연산이 진행된다.)

'Spark' 카테고리의 다른 글

Apache Spark(아파치 스파크) - (4). 구조적 API - 집계 연산 함수 (1)	2023.09.13
Apache Spark(아파치 스파크) - (3). 구조적 API 개요 (42)	2023.09.05
Apache Spark(아파치 스파크) - (1). 소개 (2)	2023.06.11

GPT-3 (Language Models are Few-Shot Learners) 논문 리뷰

2023. 6. 12. 23:18

GPT-3 배경 설명

GPT-3은 요즘 많이 사용하는 ChatGPT의 근간이 된 논문으로, 2020년 OpenAI에서 NIPS에 발표한 논문이다.
Language Model의 parameter가 꾸준히 늘어가는 추세였는데, GPT-3에서는 기존의 가장 큰 모델보다 거의 10배 정도의 많은 parameter를 넣을 정도로 큰 모델을 사용하였다.
Model scaling-up을 통해 few-shot에서도 Task-Specific 한 기존의 finetuning 모델들의 성능에 필적하는 성능을 보여주었다. (이 시도가 현재 ChatGPT를 만든 것 같다.)

Abstract

최근 NLP task에서 large corpus의 pre-training을 기반으로한 언어모델들이 큰 효과를 내고 있다.
하지만, 대부분의 모델은 task-agnostic의 재학습이 필요하고, 이 과정에서 task에 맞는 수많은 학습 데이터들이 필요하다.
이 논문에서는 언어모델의 사이즈를 키워서, 현재 task-agnostic SOTA 모델들의 성능에 필적할수 있을 정도로 few-shot 모델 성능을 향상했다.
특히, 175 billion parameter로 구성된 GPT-3을 few-shot으로 학습하였는데, 다양한 NLP 분야에서 좋은 성능을 보였다.
추가적으로 GPT-3은 인간이 작성한 기사와 구분하기 어려운 뉴스 샘플등을 생성할 수 있다는 사실을 발견하였고, 이 발견과 사회적 영향에 대해 논의한다.

Introduction

[문제]

최근 NLP 분야에서의 pre-trained language model의 트렌드는 다양하고 많은 분야에서 큰 향상을 일으켰지만, 이러한 모델들은 task-agnostic 한 방식을 채택하고 있어, 원하는 task에 대한 수많은 데이터셋과 fine-tuning 과정을 필요로 한다.
이러한 방식은 아래의 문제가 있다.
1. 실용적 관점에서 모든 새로운 task에 대해서 labeling 된 데이터가 필요하여, 언어모델의 확장성을 제한한다. 각 task 학습을 위한 dataset이 필요한데, 그것을 모으는 것은 매우 어렵고, task를 확장할 때마다 반복해야 한다.
2. 큰 모델에서 좁은 분포의 데이터를 학습시키면, 잘못된 상관관계를 학습할 수 있다. pre-training 단계와 fine-tuning 단계를 사용한 모델들에서 이런 문제가 있는데, 이러한 모델들은 일반화가 잘 안 되는 문제가 있다.
3. 인간은 새로운 lagnuage task를 배우기 위해, 많은 데이터를 필요로 하지 않는다는 점이다. 인간의 언어능력에는 일반화와 적용을 자주 활용하는데, NLP 모델도 이러한 인간의 언어 능력과 동일한 수준이 되어야 한다. (task-agnostic은 그렇지 않다는 뜻인 듯하다.)
이러한 문제를 풀기 위해, meta-learning을 활용한 방법들이 있다. 몇 가지 방법들이 등장했지만(특히, GPT-2), fine-tuning 방법에 비해 성능이 매우 떨어진다.
한편, Language modeling의 최근 트렌드는 model의 capacity를 키우는 것이다. 이러한 트렌드에서 model의 parameter를 키울수록 언어모델의 성능이 향상되는 경향이 있음을 볼 수 있다. (이전까지 17 billion paramter까지 등장)

[모델 소개]

이 논문에서는, 175 billion의 parameter를 사용하는 "GPT-3"이라는 language model을 실험하여, model의 parameter가 커질수록 성능이 향상됨을 확인한다.
또한, GPT-3을 각각 few-shot learning, one-shot learning, zero-shot learning을 통해 학습하고, 비교해 본다.

[실험 결과]

Few-shot에서 단어에서 관계없는 symbol을 지우는 간단한 task를 수행해 보았을 때, task에 대한 설명이 많을수록(zero에서 few shot으로 갈수록), 성능이 향상되었고, model의 parameter가 많을수록 성능이 급격하게 향상되는 것을 보인다.

GPT-3이 약한 분야도 있는데, inference task나 reading comprehension과 같은 분야이다.

GPT-3 Approach

model, data, training을 포함한 pre-training 과정은 model의 크기, dataset의 다양성, 길이, 크기가 커졌다는 것을 빼고는 GPT-2의 방법과 비슷하다.

2023.05.27 - [NLP 논문] - GPT-2 (Language Models are Unsupervised Multitask Learners) 논문 리뷰

GPT-2 (Language Models are Unsupervised Multitask Learners) 논문 리뷰

GPT-2 배경 설명 GPT-2는 OpenAI에서 2019년 발표한 논문이다. GPT-2는 기존의 대규모 LM 구조인 GPT-1의 구조를 따르지만, 학습을 Unsupervised Multitask Learning을 사용하여, 범용성 있는 자연어처리를 할 수 있

devhwi.tistory.com

in-context learning도 GPT-2 논문의 방법과 비슷하지만, context 내에서 구조적으로 조금 다른 몇 가지 setting을 시도해 볼 수 있다. task-specific 데이터를 얼마나 활용하냐에 따라, 4가지 setting으로 분류한다.
- Fine-Tuning (FT) : 최근에 가장 일반적인 방법이다. 원하는 task에 맞는 데이터셋을 통해 학습한다. 이 과정에서 수많은 데이터가 필요하다. FT의 장점은 성능이 매우 좋다는 점이다. 가장 큰 단점은 각 task를 학습할 때마다, 수많은 데이터가 필요하다는 점이다. GPT-3도 FT로 학습할 수 있지만, 논문의 목적은 성능이 아니기 때문에, 별도로 학습하지는 않았다.
- Few-Shot (FS) : inference 과정에서 conditioning으로 이용할 수 있는 약간의 task에 대한 설명이 주어지지만, 직접 학습에 활용하지는 않는다. FS는 task에 대한 설명과 함께 task에 대한 K개의 example들이 제공된다. (K를 model의 context window라고 하고, 대략 10~100의 값을 갖는다.) FS의 장점은 task-specific 한 데이터를 많이 줄일 수 있다는 것이고, narrow distribution에서 학습할 수 있는 잘못된 상관관계에 대한 가능성이 줄어든다는 것이다. 단점은 FT 방식의 SOTA에 비해 성능이 떨어진다는 점이다. 또한, task specific한 데이터가 여전히 필요하다는 점이 문제이다.
- One-Shot (1S) : task에 대한 example이 하나만 주어진다는 것이 Few-shot과 다른 점이다. 굳이 one-shot을 few-shot과 나누는 이유는 one-shot이 인간의 커뮤니케이션과 비슷하기 때문이다.
- Zero-Shot (0S) : 어떤 task인지에 대한 설명만 있고, 아무 example이 주어지지 않는다. 이 방법은 편의성과 확장성, 잘못된 상관관계를 피할 수 있는 점등에서 매우 좋지만, 학습이 매우 어렵다.

[Model]

Sparse Transformer 논문의 sparse attention을 사용한 것 외에는 GPT-2와 같은 모델과 아키텍처를 사용하였다.
model size와 성능 간의 상관관계 확인은 ㄹ위해, 8가지 다른 size의 모델을 사용했다. (125 millions ~ 175 billions)
이 중, 제일 큰 모델을 GPT-3이라고 한다.

[Training Dataset]

데이터가 풍부한 Common Crawl Dataset을 사용하였지만, 필터링되지 않은 데이터가 많이 섞여있어서, 데이터셋의 품질을 향상하기 위한 3가지 방법을 추가하였다.
- Common Crawl Dataset에서 high-quality reference corpora와 비슷한 데이터들을 다운로드하였다.
- 문서 수준에서 퍼지 일치 기반 중복 제거를 활용하여, overfitting 등을 방지하였다.
- 이미 알려진(앞선 NLP 논문등에서 활용), high-quality reference corpora 데이터들을 데이터셋에 포함하였다.
- 단순히 양에 따라서 가중치를 둔 것이 아닌, 데이터셋에 품질이 높을수록 높은 가중치를 두었다. (아래 weight in training mix에 해당)

[Training Process]

large model일수록 큰 batch size를 사용하지만, 적은 learning rate를 필요로 한다.
학습과정에서 gradient noise scale을 측정하여, batch size 선택에 사용하였다.
Out of memory를 막기 위해, model parallelism을 사용했다.

Results

size가 각기 다른 8개의 GPT-3 모델의 learning curve를 비교하였는데, size가 큰 모델일수록 언어모델의 성능이 향상됨을 보인다.
이 과정에서, traigning compute와 performance는 power-law를 따른다고 알려졌는데, 모델 size가 일정 수준 이상에서는 power-law의 기댓값보다 더 좋은 성능을 보였다.
이것이 training dataset을 cross-entropy를 통해 학습해서(외워버려서) 그런 것 아닐까 하는 의심이 들 수도 있지, cross-entropy가 다양한 NLP 분야의 task에서 일관적으로 성능 향상을 보임을 보인다.

1. Language Modeling

Penn Tree Bank(PTB) dataset에서 zero-shot perplexity를 계산하였다.
training dataset에 포함된 Wikipedia와 관련된 4가지 task들은 제외했다.
새로운 SOTA가 되었다.

[LAMBADA]

LAMBADA dataset은 text 내에서 long-range dependency를 테스트한다. (context를 읽고, sentence의 마지막 word를 추정하는 문제)
Zero-Shot 환경에서 기존 SOTA보다 8%가량 좋은 성능을 보였다.

[HellaSwag]

HellaSwag dataset은 story와 몇 가지 instruction이 주어지면, 가장 best의 ending을 뽑는 문제이다.
StoryCloze dataset은 story에 따른 가장 그럴듯한 ending sentence를 뽑는 문제이다.
둘 다, SOTA보다는 떨어지지만, 좋은 성능을 얻었다.

2. Closed Book Question Answering

Closed Book Question Answering은 다양한 지식에 대한 context가 없는 답변을 생성하는 Task이다.
Model Size가 커졌을 때(GPT-3)에서 SOTA를 넘어서는 결과를 보여주었다. (아마도, task 자체가 광범위함을 포함하고 있어서, task-specific 학습이 크게 힘을 발휘 못하는 것 같다.)

3. Translation

Translation의 학습에서는 93% 텍스트가 영어였고, 7% 만 다른 언어들을 포함하였고, 별도의 목적함수를 사용하지 않았다. (그냥 언어 구분 없이 똑같이 학습하였다.)
Zero-Shot 환경에서는 기존 Zero-Shot들보다 오히려 성능이 낮지만, Few-Shot 환경에서는 특정 task에 한해서는 Supervised SOTA를 넘기도 하였다.

4. Winograd-Style Task

해당 Task는 대명사가 지칭하는 것을 맞추는 문제로, 추론 능력을 확인할 수 있다.
SOTA에 비해서는 낮지만, RoBERTa에 근접할 정도로 좋은 성능을 보인다.

5. Common Sense Reasoning

특정 데이터셋에서는 SOTA를 보였지만, 다른 데이터셋에서는 낮은 성능을 보여주었다.
전체적으로 OpenBookQA를 제외한 데이터셋에서는 Task 설명이 큰 효과를 보지 못했다.

6. Reading Comprehesion

GPT-3이 약한 분야이다. CoQA를 제외하고는 SOTA와 매우 큰 성능 차이가 난다.

7. Super GLUE

BERT와의 비교를 위해 SuperGLUE를 Test 한다.
SOTA에는 못 미치지만, 대부분의 task에서 BERT와 필적하거나, 오히려 더 높은 성능을 보여주기도 한다.

이외, 많은 Task들이 있지만, 대체적으로 비슷한 경향을 보여줘서, Result는 여기까지만 넣도록 하겠다.(힘들다.)

다만, 숫자 연산이나 뉴스 기사 생성, 문법 교정 등 다양한 분야에서 좋은 성능을 보여준다.

Memorization에 대한 검증

GPT-3의 학습 데이터가 매우 방대하고, Web Crawling을 통해 만들어졌기 때문에, Training dataset에 원하는 Benchmark의 데이터가 포함되어 있을 가능성이 있다. (Data Contamination이라고 표현한다.) 즉, memorization으로 위의 좋은 performance를 낼 수 있다는 것이다.
Training Curve를 보았을 때, 학습에 따라 Validation Loss와 Train Loss가 비슷한 추세로 줄어드는 것을 볼 수 있는데, 이것은 memorization이 없다는 증거가 된다. (특정 task를 외웠으면, train loss만 급격히 줄어드는 구간이 있을 것이기 때문에)

이것 말고도, memorization을 증명하기 위해, 데이터셋을 clean 하는 실험이 있는데, 실험 내용이 사실 이해가 잘 안 간다. 여하튼 Data를 Clean해도 성능에 딱히 영향이 없기 때문에, memorization은 아니라는 뜻이다.

Limitations

GPT-3는 좋은 성능을 보여주었지만, 몇 가지 한계가 있다.
- 성능적 한계 : 몇가지 NLP task에 대해서는 좋지 않은 성능을 보여준다.
- 구조 & 알고리즘의 한계 : GPT-3은 bidirectional 구조나 denoising 같은 NLP 분야의 성능을 향상하는 방법들은 고려하지 않았다.
- 본질적 한계 : 본 논문은 LM을 scaling up 하는 것에 집중하였는데, pretraing objective에 근본적 한계가 있다. 현재 obejective는 모든 token을 동일한 가중치를 준다. 즉, 중요한 token을 예측하는 것이 NLP 성능 향상에 더 중요하지만, 모두 동일하게 학습한다. 단순 Scaling을 떠나서(한계가 있기 때문에), NLP의 목적을 위한 objective 등을 학습해야 할 것이다.
- pre-training 과정에서 비효율성 : GPT-3은 인간에 비해 너무 많은 텍스트를 학습한다. 학습과정에서 효율성을 향상해야 한다.
- Few-Shot learning의 불확실성 : 실제로 GPT-3이 Few-Shot Learning을 통해 학습한 것인지 모호하다.
- Expensive Cost : GPT-3의 parameter가 매우 많기 때문에 training & inference cost가 매우 크다.
- 설명 불가능 : 모든 Deep Learning이 겪는 문제처럼 GPT-3도 결과에 대한 해석이 불가능하다. Training data에 대한 bias가 발생할 수 있다.

Reference

Brown, Tom, et al. "Language models are few-shot learners." Advances in neural information processing systems 33 (2020): 1877-1901.

총평

논문이 매우 길고, 저자도 실험도 매우 많다. 그래서 그런지 읽기 매우 힘들었다. (내 착각인지 모르겠지만, GPT-2와 다르게 논문이 약간 문과틱 감성이 난다.)
실험이 매우 많고, 한계와 사회적 파급력 등에 대해서 매우 자세하고 광범위하게 다뤄서, 정말 좋은 논문이다.
다만, Parameter가 매우 크고, Task example이 정교하게 만들어진 것 같아, 재현을 하기는 어려울 것 같다.

'NLP 논문' 카테고리의 다른 글

InstructGPT (Training language models to follow instructions with human feedback) 논문 리뷰 (1)	2023.07.01
PaLM(Scaling Language Modeling with Pathways) 논문 리뷰 (1)	2023.06.29
DeBERTa(Decoding-enhanced BERT with disentangled attention) 논문 리뷰 (1)	2023.06.06
DistilBERT(a distilled version of BERT) 논문 리뷰 (4)	2023.06.04
RoBERTa (A Robustly Optimized BERT Pretraining Approach) 논문 리뷰 (1)	2023.06.03

Apache Spark(아파치 스파크) - (1). 소개

2023. 6. 11. 15:31

데이터를 다루는 입장에서는 데이터 처리 속도를 신경 쓰지 않을 수 없다. 최근 운영 중인 시스템의 처리 속도를 개선하기 위해 다양한 방법을 고민하던 중, Spark에 대한 관심이 생겨서, 공부한 내용을 정리해 보기로 한다.

Introduction

Apache Spark란?

Apache Spark는 빅데이터 처리를 위한 오픈소스 분산, 통합 컴퓨팅 시스템이다.

[통합]

Apache Spark 전에는 각기 다른 시스템으로 구성된 데이터의 흐름(SQL 처리, 데이터 스트리밍, 데이터 분석)을 개발자가 직접 조합하여 Application을 만들었다.
Apache Spark 내에서는 다양한 데이터 흐름을 처리하는 시스템 및 API들을 일관성있는 API로 통합하여, 개발자들이 더 쉽고 효율적인 코드를 개발할 수 있도록 하였다.

[분산]

많은 데이터 분석가 & 데이터 엔지니어들이 Apache Spark에 집중하는 이유는 분산 처리를 이용한 빠른 데이터 처리 때문이다. Apache Spark는 같은 데이터 분산 처리 플랫폼인 Hadoop을 개선한 플랫폼인데, Hadoop과의 차이를 통해서 Spark의 특징을 살펴보자.

	Hadoop	Spark
목적	데이터 분산 처리 & 저장	데이터 분산 처리 & 분석
데이터 처리 모델	HDFS를 사용한 데이터 저장 MapReduce 기반 분산 처리 모델	인메모리 기반 분산 처리 모델
저장소	HDFS	HDFS, S3, Elastic Search 등
속도	작은 규모의 데이터셋의 경우 Hadoop이 더 빠를 수 있음 (Spark 메모리 Load 시간 때문)	반복적인 처리가 필요한 작업에서는 Hadoop의 최대 100배 빠름
호환성	별도의 Package와 연계해야함	언어 : Python, R, Java, Scala, SQL 등 지원 분석 : MLlib, GraphX API 등 지원

대체적으로 Spark가 더 좋은 플랫폼이구나라는 생각을 할 수 있지만, Hadoop이 Spark에 비해 갖는 장점이 있는데, 바로 데이터 보존에 대한 안정성이다. Spark는 인메모리 기반의 데이터 처리를 진행하기 때문에, 서버 다운 등의 장애에 취약하다. 따라서, 최근(?)에는 Hadoop과 Spark를 같이 사용하는 경우가 많다.

'Spark' 카테고리의 다른 글

Apache Spark(아파치 스파크) - (4). 구조적 API - 집계 연산 함수 (1)	2023.09.13
Apache Spark(아파치 스파크) - (3). 구조적 API 개요 (42)	2023.09.05
Apache Spark(아파치 스파크) - (2). Spark 구조 Overview (1)	2023.06.29

Python 속도 최적화 - NUMBA

2023. 6. 8. 21:55

Introduction

[문제]

Python은 매우 간단하고, 응용 모듈이 많아서, 많이 선호되지만, 속도가 중요한 프로그램에서는 항상 문제가 된다.(Python 코드의 속도 튜닝의 끝은 다른 언어로 다시 개발하는 것이라고 할 만큼, Python은 느리다.)
하지만, Python에만 존재하는 응용 패키지들이 많아서, Python 언어를 유지하면서 속도 튜닝이 필요한 경우가 많다.
Python이 느린 이유는 많지만, 아래의 이유가 치명적이다.
1. 인터프리터 언어 : 코드를 한줄 씩 읽고, 해석하는 식으로 동작한다.
2. 동적 타이핑 : Python은 형식을 지정해주지 않아, 코드 실행 중에 Type 지정이 필요하다.

[Numba]

Numba는 이러한 Python의 실행 속도를 개선하기 위한 대표적인 라이브러리로, JIT(just-in-time)이라는 Compiler를 통해, Numpy 배열, 함수, loop의 속도를 개선하였다.
단순히, 패키지 import와 decorator 사용만 하면 되어서, 매우 간단하다.
Numba는 Array 처리 등의 무거운 Python 코드를 동적으로 compile 하여, 기계어로 변환한다. 이 과정에서 type 정보 분석 & 최적화를 하여, 속도를 최적화한다.

Numba 설치 방법

Numba의 설치 방법은 매우 간단하다.

pip install numba

또는

conda install numba

다만, numpy array를 최적화하는 라이브러리인 만큼, numpy에 대한 version 의존성이 있다. https://numba.readthedocs.io/en/stable/user/installing.html를 참조해서 맞는 버전을 설치하는 것을 추천한다.

Numba 사용

numba는 기본적으로 함수에 @jit의 decorator를 넣어주면 된다.

from numba import jit

@jit
def numba_func(input):
    sol = np.tanh(input)
    return sol

numba에는 몇 가지 옵션을 사용할 수 있는데, 각 옵션은 다음과 같다. (해당 옵션등은 함께 적용할 수 있다.)

Option 명	설명	주의점	사용 예시
nopython	Python을 interpreter로 처리하지 않고, Compile을 진행	Python에서만 존재하는 라이브러리(pandas 등)를 사용하면 Error가 뜸	@jit(nopython=True)
nogil	GIL(Global Interpreter Lock)을 사용하지 않음.	Thread 간 안전성 문제가 있을 수 있음, 메모리 사용량이 많아질 수 있음	@jit(nogil=True)
cache	Compile 결과를 디스크에 캐싱하여, 이후에 재사용 할 수 있도록 함	Numba 버전이나, 코드 변경 시, 캐시 파일이 의미가 없을 수 있음.	@jit(cache=True)
parallel	병렬 처리를 위해 사용, 반복문과 배열의 연산을 병렬화하여 cpu 코어를 활용 가능	추가적인 메모리 사용과 오버헤드 발생 가능, 병렬화로 인해 항상 성능 향상을 보장하지 못함.	@jit(parallel=True)

일반적으로 nopython 모드를 True로 하는 경우가 많다. 이것은 Python interpreter와 상호작용을 최소화하여, 함수를 빠르게 수행할 수 있기 때문이다.
nopython 모드는 자주 사용되기 때문에 njit decorator를 통해 사용되기도 한다.

from numba import njit

//@jit(nopython=True)와 같음
@njit
def numba_func(input):
    sol = np.tanh(input)
    return sol

numba는 jit 이외에도 stencil과 같은 다양한 함수들을 지원한다. 자세한 내용은 홈페이지(https://numba.readthedocs.io/en/stable/index.html)를 참고하는 것이 좋을 것 같다

Numba 성능 비교

H/W와 코드 환경, 연산하는 함수에 따라, 컴파일 및 최적화 정도는 천차만별이다. 따라서, 절댓값이 주목하기보다는 대략적으로 이런 효과가 있구나 정도로 생각해 주길 바란다.

import numpy as np
from numba import jit
import time

@jit
def numba_func(input):
    sol = np.tanh(input)
    return sol 


def no_numba_func(input):
    sol = np.tanh(input)
    return sol 


if __name__  == '__main__':
    data_length = 1000000000
    input_data = np.arange(data_length)

    start_time = time.time()
    numba_func(input_data)
    end_time = time.time()
    print("Elapsed Time (with numba):",end_time-start_time)

    start_time = time.time()
    no_numba_func(input_data)
    end_time = time.time()
    print("Elapsed Time (without numba):",end_time-start_time)

길이가 10억개의 데이터에 대해서 jit과 jit 옵션이 없는 코드를 실행해 보았다. jit을 사용한 것이 빠른 속도를 보여주는 것을 확인할 수 있다.

길이가 1억개의 데이터에 대해서 jit과 jit 옵션이 없는 코드를 실행해 보았다. jit을 사용하지 않은 것이 더 빠른 속도를 보여주는 것을 확인할 수 있다.

길이가 1000개 정도의 소규모(?) 데이터에서 실행 결과, jit의 overhead가 확실히 존재한다는 것을 확인할 수 있다.

→ 다만, JIT의 성능 향상에 대한 연산량은 H/W 등의 실험환경에 크게 영향을 받는다. 꼭, 실제 코드를 돌릴 환경에서 테스트해 보고 적용하는 것을 추천한다.

Numba 주의점

Numba는 대용량의 연산이 아닌, 소규모의 연산에서는 오히려 느린 성능을 보여준다. 이는 Numba의 JIT 컴파일에 약간의 오버헤드가 있기 때문이다.
Numba에서 성능 향상을 보기 위해서는, 최대한 간단하고, 배열 위주의 작업들을 대용량 데이터에서 사용해야한다. 제어 흐름이 복잡한 코드는 최적화에 한계가 있다.
nopython 옵션 적용 시, JIT이 컴파일 할 수 없는 경우에는 에러가 뜬다. Input과 Output의 타입, 함수 내의 연산이 명확한 경우에만 사용하도록 한다.
Numba가 효과있는 데이터 양등을 실제 프로그램이 돌아갈 환경에서 실험해 보고, 데이터 연산량을 대략적으로 계산하여, JIT을 적용한 함수와 적용하지 않는 함수를 각각 놓고 분기를 치는 것도 좋은 방법이다.
실제로 운영 단에 있는 코드 들에서는 하나의 함수에 복잡한 내용이 섞여있는 경우가 많다. 이러한 경우, numpy나 for문만 별도의 함수로 나눠서 JIT을 적용해줘야한다. 이러한 변경은 최적화에서는 이점이 있을지 모르지만, 가독성에서는 해가될 수 있다.

Numba는 Python의 고질 병인 속도 문제를 해결하기 위해, 등장한 라이브러리다. 비록, 대용량 데이터에서만 효과를 볼 수 있다는 아쉬운 점도 있지만, 이런 옵션이 존재한다는 것이 어딘가 싶다. (사실, 대용량 데이터가 아니면, 굳이 속도 문제가 치명적이진 않을 것이다.) 만약, 운영 환경에서 간혹 존재하는 대용량 데이터에 고통받고 있다면, 예외처리용으로 사용해도 좋을 것 같다.

'Python' 카테고리의 다른 글

Pandas 성능 향상을 위한 방법들 (2)	2023.07.21
Transformer Pytorch 구현 (12)	2023.07.15
Pytorch Profiler Tensorboard로 시각화 (1)	2023.07.10
Pytorch Resource & 모델 구조 Profiler 도구 (torch profiler) (1)	2023.07.09
Python 프로파일링을 위한 도구들 (Process, Memory, Execution Time) (5)	2023.07.06

DeBERTa(Decoding-enhanced BERT with disentangled attention) 논문 리뷰

2023. 6. 6. 09:23

DeBERTa 배경 설명

DeBERTa는 2020년 Microsoft에서 ICLR 2021에 낸, BERT의 성능을 개선한 논문이다.
기존 BERT를 개선한 논문들은 엔지니어링적 개선에 가까웠는데, 이 논문은 새로운 방법들을 제시해서, BERT의 성능을 향상했다.
ICLR에 발표된 논문인만큼, 실험과 설명이 자세하게 적혀있어, 직접 읽어보는 것을 추천한다.

Abstract

이 논문에서는 DeBERTa(Decoding-enhanced BERT with disentangled attention)이라는 새로운 모델을 제시한다.
이 모델은 2가지 새로운 방법을 사용하여, BERT, RoBERTa보다 높은 성능을 보인다.
1. disentangled attention : 각 word들은 content와 position vector로 표현되고, 그들의 contents와 상대적 위치에 따라, words들 간에 attention을 구한다.
2. enhanced mask decoder : 개선된 mask decoder로 decoding layer의 절대 위치를 포함하여, masking token을 예측한다.
추가적으로, 새로운 virtual adversarial trainin이 model의 generalization을 향상하기 위해 사용된다.
이를 통해, NLU(자연어 이해) 뿐 아니라, NLG(자연어 생성)에서도 기존 모델인 BERT, RoBERTa에 비해 좋은 성능을 보인다.

Introduction

Transformer는 문장 내의 각 단어가 미치는 영향을 self-attention으로 연산하여, 병렬 수행이 가능하도록 하였다.
이 논문에서는 distentangled attention과 enhanced mask decoder를 사용하여, BERT의 성능을 개선한, DeBERTa를 소개한다.

[Disentangled attention]

기존 positional 정보와 content 정보의 합으로 표현되던 BERT의 embedding과 다르게, DeBERTa에서는 content와 postion vector를 따로 encode 한다.
word 사이에 attention weights는 그들의 contents와 상대적 위치를 고려하여, disentangled matrics를 통해 구해진다.
이것은 attention이 contents 뿐 아니라, 그 사이의 상대적 위치에 의존한다는 것에서 비롯되었다.

[Enhanced mask decoder]

DeBERTa도 BERT와 동일하게 masked language modeling을 이용해서 학습한다.
Disentangled 단계에서 이미 상대적 위치는 고려했지만, prediction에서 매우 중요한 각 단어의 절대적 위치는 고려하지 못한다. (절대적 위치는 문장 내에서 역할을 의미할 수 있다.)
DeBERTa에서는 각 단어의 절대적 위치 정보를 softmax 단 바로직전에 합쳐준다.
추가적으로, 이 논문에서는 fine-tuning 단계에서 새로운 virtual adversarial training 방법을 제시한다. 이 방법은 model의 generalization을 향상한다.

Background

[Transformer]

Transformer에 대한 설명은 아래 참조
기본 Transformer에서는 word의 위치정보가 부족하다. 이를 해결하기 위해, 문장 내 단어의 상대적 위치와 절대적 위치를 고려하는 방법들이 나왔지만, 일반적으로 상대적 위치를 사용하는 것이 효과적으로 알려져 있다.
이 논문은 각 단어가 word content와 position의 2개의 독립적인 vector를 사용하고, attention weight를 각 vector의 disentangled metrics를 사용해서 구한다는 점에서 기존 방법들과 차이점이 있다.

2023.05.08 - [NLP 논문] - Transformer (Attention Is All You Need) - (1) 리뷰

Transformer (Attention Is All You Need) - (1) 리뷰

Transformer 배경 설명 Transformer는 Google Brain이 2017년 "Attention is All You Need"라는 논문에서 제안된 딥러닝 모델이다. Transformer는 기존 자연어 처리 분야에서 주로 사용되던 RNN, LSTM 같은 순환 신경망 모

devhwi.tistory.com

[Masked Language Model]

자연어 모델에서는 BERT 이후로 Masked Language Modeling을 많이 사용한다.
Masked Language Modeling에서는 model parameter θ를 학습하기 위해, 다음의 objective를 사용한다.

DeBERTa

[disentangled attention]

disentangled attention 식을 만들기 위해, 몇 가지를 설명한다. 논문 내에는 따로 구분 짓지 않았지만, 설명 편의를 위해 임의로 3가지 part로 나눴다.

1. Vector 구성 요소

문장 내 i번째 token은 다음과 같은 두 개의 vector로 구성된다.
- i번째 contents vector: $H_i$
- i번째 token에서 j번째 token과의 상대적 position : $P_{i|j}$
i번째 token과 j번째 token 간의 attention score는 다음과 같이 계산된다.

→ 위의 수식은 4개의 component로 분리되는데, 왼쪽부터 각각, "content-to-content", "content-to-position", "position-to-content", "position-to-position"이다.

이 논문이 지적하고 있는 것은 과거 논문들에서는 attention의 4가지 component 중, "content-to-content"와 "content-to_position"만 사용하고 있다는 것이다. (content vecotor에 position을 더해서 만들었기에)
특히, 문장 내에서 두 단어 간의 상관관계를 고려할때, 단순 contents만 보는 것이 아니라, 두 단어간의 상대적 위치도 매우 중요하기 때문에 "position-to-contents"와 "contents-to-position"을 모두 봐야 한다.
수식 내용 중, position vector가 상대적 위치를 기반으로 만들어졌기 때문에, "position-to-position"은 추가적인 정보를 주지 못하므로, 수식에서 삭제한다.

2. Self-attention operation

self-attention은 아래와 같은 수식을 통해 구해진다. Output hidden vector인 $H_o$를 구하기 위해, Query(Q)와 Key(K)를 통해 Attention(A)을 구하고, Attention을 Normalize 한 후 Value(V)에 곱한다.

3. 상대적 위치

이 논문에서는 상대적 위치를 아래와 같이 계산한다.

→ k는 maximum relative distance. 위의 거리 식을 생각해 보면, 현재 token의 앞쪽에 위치한 token은 distance가 0으로 주의 깊게 보겠다, 뒤쪽에 위치한 token 중, k 이내는 가까울수록 고려 많이 하겠다, 그 외에는 조금만 고려하겠다는 뜻으로 이해된다.

위의 1,2,3번을 종합하면, disentangled attention은 1.attention은 3개 component로 구성되었고, 2. self-attention 기반, 3. 상대적 거리를 고려하는 attention이다.
최종적으로 output hidden vector는 아래와 같이 구해진다.

→ 주의해야 할 점은, "position-to-content"에 $\delta(j, i)$가 사용되었다는 점인데, 이것은 "position-to-content"를 구할 때, 사용되는 content가 j번째 content이기 때문이다.

[enhanced mask decoder]

disentangled attention에서 relative position은 고려되었지만, absolute position은 실제 mask-prediction에 중요함에도 불구하고, 고려되지 않았다.
특히, 뉘앙스 같은 것은 absolute position 정보가 중요하다.
DeBERTa에서는 모든 Transformation layer들의 직후, softmax layer 전단에 absoulte position 정보를 넣어주었다.
이를 통해, Transformer가 elative position을 우선 고려하되, absolute position 정보도 보완 정보로 사용할 수 있게 하였다.
이러한 모델을 Enhanced Mask Decoder(EMD)라고 부른다.
BERT 방식(input 정보에 absolute position 정보를 넣는 것)에 비해 성능이 좋다.

Scale Invariant fine-tuning

Layer Noramlization 기법에 영감을 받아, SIFT 알고리즘을 사용하였다.
SIFT는 word embedding vector를 확률 vector로 normalization 하고, normalize 된 word embedding에 preturbation을 적용한다.
이로 인해, fine-tuend model의 성능이 상당히 향상되었다.

Experiment

Large model : GLUE에서 다른 large model에 비해 좋은 성능을 보였다.

Base model : Base 모델에서도 좋은 성능을 보였다.

ETC

사용한 데이터 셋

model 학습을 위한 paramter

RoBERTa와 attention visualization 비교

→ RoBERTa는 diagonal line이 두드러지지만, DeBERTa는 그렇지 않다. 이것은 EMD의 영향인 것으로 확인된다.(DeBERTa가 다른 단어를 골고루 본다는 뜻인 것 같다.)

→ RoBERTa는 vertical line이 2줄 존재하는데, 하나는 special token(CLS)등 때문이고, 하나는 high frequency token(예시: a, the) 때문이다. DeBERTa는 special token 영역의 1줄만 존재한다.(특정 단어에 무조건 의존하는 현상이 적다는 것을 말하는 것 같다.)

Reference

He, Pengcheng, et al. "Deberta: Decoding-enhanced bert with disentangled attention." arXiv preprint arXiv:2006.03654 (2020).

총평

실험이 정말 많아서, 많은 생각을 할 수 있게 만든 논문이다.
BERT 관련 논문들을 계속 읽어오고 있는데, 모델 단의 개선 아이디어는 처음인 것 같아서, 재밌었다.

DeBERTa 관련 git : https://github.com/microsoft/DeBERTa

'NLP 논문' 카테고리의 다른 글

PaLM(Scaling Language Modeling with Pathways) 논문 리뷰 (1)	2023.06.29
GPT-3 (Language Models are Few-Shot Learners) 논문 리뷰 (5)	2023.06.12
DistilBERT(a distilled version of BERT) 논문 리뷰 (4)	2023.06.04
RoBERTa (A Robustly Optimized BERT Pretraining Approach) 논문 리뷰 (1)	2023.06.03
GPT-2 (Language Models are Unsupervised Multitask Learners) 논문 리뷰 (1)	2023.05.27

DistilBERT(a distilled version of BERT) 논문 리뷰

2023. 6. 4. 22:31

DistilBERT 배경 설명

DistillBERT는 Huggiing Face에서 2019년에 낸 논문으로, knowledge distillation을 사용하여, BERT의 문제점으로 지적되던, 큰 parameter 문제를 극복하기 위한 연구이다.
실제로 BERT를 실생활에서 이용할 때, 속도와 메모리 때문에 거의 DistilBERT를 많이 이용하는 것 같다.

Abstract

NLP 분야에서 large-scale pre-trained model을 사용한 transfer learning이 대세가 되었지만, model의 크기가 커서 연산 cost는 아직 크다.
이 논문에서는 DistilBERT라는 더 작지만, 성능은 떨어지지 않는 새로운 모델을 제안한다.
DistilBERT은 pre-training 단계에서 knowledge distillation을 이용하여, BERT의 모델 크기를 40%로 줄이고, 60%나 빠르지만, 성능은 97% 정도로 거의 떨어지지 않는다.
lLarge language model이 학습한 내용을 배우기 위해, language modeling에 triplet loss를 사용하여 학습한다.

Introduction

NLP 분야에서 transfer learning이 주류로 자리 잡은 이후, 성능 향상을 위해 모델의 크기를 점점 키우고 있다.
하지만, 이런 흐름은 1) 학습을 위한 자원 사용이 계속 증가한다는 점 2) 연산과 메모리 소모가 더 커져서, real time 처리와 같은 응용을 어렵게 한다는 점이 있다.
이 논문에서는 knowledge distillation을 사용하여, 기존 languager model보다 훨씬 더 작아, 가볍고, 속도가 빠르면서 성능은 좋은 모델을 제안한다.
triplet loss를 사용하여 학습된, 기존보다 40% 가량 작은 Transformer가 기존 방식으로 학습된 Transformer와 거의 비슷한 성능을 내면서, 60%나 빠르다는 것을 보인다.

Knowledge Distillation

knowledge distillation은 compact model을 위한 압축방식에서 비롯된 것으로, larger model(일반적으로 teacher라고 부름)의 performance를 따를 수 있는 compact model(student라고 함)을 찾는 과정이다.
classification 학습은 일반적으로 one-hot vector를 이용한 Cross-entropy를 이용한다. 따라서, 각 class에 분포될 확률을 가지고 있다. classification 학습에서 knowledge distillation은 기존 classification을 위한 학습뿐 아니라, large model의 확률 분포를 따르도록 compact model을 학습한다(distillation loss).
이 논문에서도 pre-training 과정에서 mask를 추정할때, distiilation loss의 개념을 활용한다. 추가적으로 compact model과 large model의 hidden states vector가 align 되도록 cosine embedding loss를 추가했다.

DistillBERT

[Student(compact model) architecture]

전체적인 모델은 BERT와 동일하지만, layer의 개수가 반으로 줄었고, token-type embeddings와 pooler를 삭제했다.
transformer의 hidden state dimension은 연산이 최적화된 라이브러리를 사용하기 때문에, 줄여도 큰 영향을 미치지 않아, layer를 줄이는데 집중했다.

[Student Initialization]

Teacher와 Student가 구조가 비슷한 덕(dimension이 같아서)에 Teacher의 2개 layer마다 1개 layer의 parameter를 Student로 가져와서 Initialization 하였다.

[Distillation]

RoBERTa의 방법을 따라서 학습했다.

2023.06.03 - [NLP 논문] - RoBERTa (A Robustly Optimized BERT Pretraining Approach) 논문 리뷰

RoBERTa (A Robustly Optimized BERT Pretraining Approach) 논문 리뷰

RoBERTa 배경 설명RoBERTa는 워싱턴 대학과 Facebook에서 2019년에 나온 BERT에 대한 연구 & 개선 논문이다.BERT의 등장으로 언어 모델의 뼈대가 통일(?)된 상황에서, 그것을 개선할 방법을 제안하였다. BERT

devhwi.tistory.com

[Data & Computational Power]

Original BERT처럼 English Wikipedia와 Toronto Book Corpus를 사용했다.
8대의 16GB V100로 90시간 학습했다.

Experiments

GLUE에서 성능 비교를 했을때, ELMo보다는 높고, Original BERT보다 40%의 paramter만 사용함에도 불구하고, BERT 성능에 97% 정도로 매우 비슷한 성능을 보인다.

Downstream tasks들에서도 DistillBERT는 BERT와 과의 비슷한 성능을 보인다.

Parameter와 속도를 비교해보았을때, original BERT에 비해 매우 적은 parameter를 사용하고, 빠르다는 것을 알 수 있다.

Reference

DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter, Victor Sanh and Lysandre Debut and Julien Chaumond and Thomas Wolf, arXiv, 2019

총평

아이디어가 매우 간단하고, 명확해서 좋다.
BERT를 실용 단계에서 잘 활용할 수 있는 이런 연구들이 많이 나왔으면 좋겠다.

'NLP 논문' 카테고리의 다른 글

GPT-3 (Language Models are Few-Shot Learners) 논문 리뷰 (5)	2023.06.12
DeBERTa(Decoding-enhanced BERT with disentangled attention) 논문 리뷰 (1)	2023.06.06
RoBERTa (A Robustly Optimized BERT Pretraining Approach) 논문 리뷰 (1)	2023.06.03
GPT-2 (Language Models are Unsupervised Multitask Learners) 논문 리뷰 (1)	2023.05.27
GreaseLM(Graph Reasoning Enhanced Language Modles For Question Answering) 논문 리뷰 (1)	2023.05.23

RoBERTa (A Robustly Optimized BERT Pretraining Approach) 논문 리뷰

2023. 6. 3. 21:04

RoBERTa 배경 설명

RoBERTa는 워싱턴 대학과 Facebook에서 2019년에 나온 BERT에 대한 연구 & 개선 논문이다.
BERT의 등장으로 언어 모델의 뼈대가 통일(?)된 상황에서, 그것을 개선할 방법을 제안하였다.
BERT 같은 대용량 언어 모델은 학습과 재현이 힘들 것으로 알았는데, 역시 facebook이어서 가능한가 싶다.
pretrained model을 사용할때, orginal BERT보다는 RoBERT를 많이 사용하는 것 같다.

Abstract

언어모델을 Pretraining 방식으로 학습하는 방법이 큰 성능 향상을 이끌었다.
Training은 매우 계산 cost가 많이 들고, 모델마다 각기 다른 사이즈의 다른 데이터셋을 통해서 수행된다.
모델의 성능에서 Hyperparameter의 선택은 결과에 중요한 영향을 미친다.
이 논문에서는 주요 hyperparameter들과 training 데이터 사이즈를 달리하면서 BERT의 pretraining의 과정을 살펴본다.
또한, 기존 BERT가 학습이 덜되었다는 것을 밝히고, 이것을 개선해서 BERT가 이후의 언어모델에 필적하거나 그보다 높은 성능을 보이도록 하였다.

Introduction

self-training 방법을 사용한 다양한 언어모델들이 나와서 성능 향상을 이끌었지만, 각 언어모델의 어느 측면이 성능 향상에 영향을 미치는지 밝히는 것은 어렵다.
Training에 계산 cost가 크고, 각기 다른 크기의 다른 종류의 학습 데이터가 사용되기 때문에, 모델링 향상을 위한 각 방법들이 어떤 영향을 미치는지 알기 어렵다,
이 논문에서는 hyperparameter tuning과 training set size의 영향을 파악하고, BERT의 학습이 덜 되었다(개선할 여지가 있다는 것)을 밝힌다.
또한, RoBERTa라는 BERT 성능을 향상할 수 있는 학습 방법들을 제안하여, 기존 BERT를 뛰어넘는 성능을 기록했다.
RoBERTa의 개선은 다음과 같다.
- 학습에 더 길고, 큰 batch를 이용
- 다음 문장 예측 objective를 삭제
- 긴 문장으로 학습
- training data의 masking pattern을 계속 바꿔줌
추가적으로 RoBERTa는 "CC-NEWS"라는 새로운 대용량 데이터셋으로 학습되었다.

Background

BERT 기반이다보니, BERT에 대한 Background를 설명한다. BERT 설명은 아래 글을 참조

2023.05.16 - [NLP 논문] - BERT(Pre-training of Deep Bidirectional Transformers for Language Understanding) 논문 리뷰

Experimental Setup

[Implementation]

우선, 이 논문은 original BERT를 재현하기 위해 일부 조건을 제외하고는 기존 BERT 논문에 나온 setup을 따랐다.

[Data]

BERT 방식의 pretraining은 대용량 텍스트 데이터에 의존한다.
이전 연구에서 data size가 performance 향상을 일으킬 수 있다고 하여, 많은 연구들이 BERT에 더 많고 다양한 데이터들을 이용해 봤지만, 모든 연구가 학습 모델을 공개하지는 않았다.
이 논문에서는 크기와 domain이 다양한 5가지의 영어 데이터셋(총합 160GB)을 이용하였다.

[Evaluation]

과거 연구들을 따라서, 3개의 benchmark(GLUE, SQuAD, RACE)들을 이용하여 성능을 평가했다.

Training Procedure Analysis

BERT의 pretraining 과정의 각 과정을 연구해본다. 비교를 위해, 모델 아키텍처는 고정하였다.(BERT Base 버전)

[Masking 방식 비교]

BERT의 학습 과정에는 token에 mask를 random하게 넣어, 이를 예측하는 과정이 있다. 이 과정에서 mask의 위치는 미리 후보지가 정해져 있고, 이 중 한 token에만 고정적으로 넣는다. 이를 이 논문에서는 "single static mask"라고 한다. 이러한 방식은 masking 될 위치가 고정되어 있기 때문에, 학습 epoch이 늘수록 중복되는 학습이 많아진다.
이 논문에서는 dynamic masking이라는 방법을 제안하고 "single static mask"와 비교한다. dynamic masking은 model에 sentence를 전달하는 과정에서 masking pattern을 만든다.

결과 : dynamic masking이 기존 방법인 static 방법보다 약간의 성능 향상을 가져온다. 이후 연구에서는 dynamic 방식을 사용한다.

[Model Input Format & 다음 문장 예측]

BERT 학습 과정 중에, 문장 묶음(Segment) 다음에, 실제 연결되는 문장과 아닌 문장을 넣고, 연결성에 대한 Ture/False를 학습하는 내용이 있다. (auxiliary Next Sentence Prediction Loss, 약칭 NSP Loss)
과거 연구들에서 NSP Loss를 지우면, 성능에 큰 악화가 생긴다고 증명했지만, 최근(당시) 연구에서는 NSP Loss의 필요성에 대해서 의문을 제기한다.
이 모순을 해결하기 위해 다양한 Input Format을 사용해보고, 이를 비교해 본다.

Sentence-pair NSP : 각 input이 한 쌍의 natural sentence를 포함한다. 이 두 문장은 같은 documentation에서 왔을 수도 있고, 각기 다른 문서에서 왔을 수도 있다. NSP Loss를 유지한다.
Full-Sentences : 각 input은 여러 문서에서 sampling 된 전체 문장을 포함한다. input은 문서 간의 경계를 넘을 수 있다. (한 문서의 sentences 뒤에 다른 문서의 sentences가 연결될 수 있다.) 다른 NSP Loss가 없다.
DOC-Sentences : Full-Sentences 방법과 비슷하지만, 다른 문서와 연결되는 부분은 없다.(한 문서에서만 샘플링) NSP Loss가 없다.

결과
- 우선 기존 방법인 Segment -pair와 Sentence-pair를 비교해 보았다. 둘 다 NSP Loss를 사용하지만, 후자의 성능이 더 낮았다. 즉, sentences 단위의 학습은 downstream 학습에서 성능 악화를 이끌 수 있다. 이것은 long-range의 dependency들을 학습할 수 없기 때문으로 보인다.
- 다음은 DOC-Sentences와 기존 BERT 성능을 비교해 본다. 이때, 전자의 성능이 미세하게 높다. 이는 NSP Loss를 제거하면 downstream 학습에서 기존과 비슷하거나, 약간 높은 성능을 보여준다.
- 마지막으로, 여러 문서가 포함될 수 있는 FULL-Sentences와 한 문서의 내용만 포함된 DOC-Sentences의 비교이다. 후자가 조금 더 높은 것을 봐서, 한 문서에서 문장을 추출하는 게 좋을 수 있다. 하지만, DOC-Sentences들은 데이터 사이즈가 다양해서(문서 당 문장의 길이와 개수가 다르므로) 논문의 이후 연구에서는 FULL-Sentences 방법을 사용한다.

[Large Batch]

과거 연구에서는 큰 batch들을 이용하는 게 optimization 속도와 성능을 향상한다고 알려졌다.
최근(당시) 연구에서 BERT에서 Large Batch를 사용할 수 있다는 것을 보여주었다.
Batch size를 다양하게 실험해 봤다.

결과 : BERT도 Batch size가 크면 성능이 좋았다. 하지만, 너무 커지면, 오히려 떨어진다.

[Text Encoding]

기존 연구들에서 Byte 단위의 BPE를 이용해서, Unknown token을 줄이는 좋은 방법을 사용했다.
기존 BERT에서는 character-level의 BPE 어휘(30K)를 사용했지만, 이 논문에서는 byte-level의 BPE 어휘(50K)를 사용한다.
앞선 연구들에서 두 encoding 방법이 약간의 차이만 있다고 하지만, 다양한 어휘 처리를 위해 byte-level을 따른다.

RoBERTa

앞선 section에서 BERT의 pretraining의 다양한 부분을 비교 & 연구해 보았다. 이 연구들을 종합해서 RoBERTa라는 방식을 제안한다.
RoBERTa는 1) dynamic masking을 사용하고, 2) NSP Loss를 제거한 Full-sentences를 사용하고, 3) Large mini-batches를 사용한다. 또한, 4) byte-level의 BPE을 사용한다.
추가적으로 이전 연구들에서 중요하다고 인지하지 못했던 1) pretrainind 과정에서 사용되는 데이터, 2) training pass의 개수에 대해 탐구해 봤다.

결과
- 앞서 분석한 요소를 다 넣은 RoBERTa가 기존에 비해 성능이 좋다. (BERT_large VS RoBERTa)
- 추가 데이터셋을 넣었을 때, 성능이 더 좋아진다. (additional data)
- pretraining 과정이 길수록 성능이 향상된다. (pretrain longer, pretrain even longer)

Reference

RoBERTa: A Robustly Optimized BERT Pretraining Approach, Yinhan Liu and Myle Ott and Naman Goyal and Jingfei Du and Mandar Joshi and Danqi Chen and Omer Levy and Mike Lewis and Luke Zettlemoyer and Veselin Stoyanov (arxiv:1907.11692.)

총평

BERT 등장 이래로, 참신한 모델링을 짜는 것보다 데이터 엔지니어링을 어떻게 할 것인지가 중요해진 흐름을 반영한 논문인 것 같다.
개인적으로 이렇게 다양한 실험을 할 수 있는 환경이 부럽기도 하고, BERT를 재현하고 실험한 저자들이 대단하다는 생각이 든다.

'NLP 논문' 카테고리의 다른 글

DeBERTa(Decoding-enhanced BERT with disentangled attention) 논문 리뷰 (1)	2023.06.06
DistilBERT(a distilled version of BERT) 논문 리뷰 (4)	2023.06.04
GPT-2 (Language Models are Unsupervised Multitask Learners) 논문 리뷰 (1)	2023.05.27
GreaseLM(Graph Reasoning Enhanced Language Modles For Question Answering) 논문 리뷰 (1)	2023.05.23
BERT(Pre-training of Deep Bidirectional Transformers for Language Understanding) 논문 리뷰 (2)	2023.05.16

PREV 이전 1 ···3 4 5 6 7 8 9 NEXT 다음