language model4 GQA: Training Generalized Multi-Query Transformer Models fromMulti-Head Checkpoints 논문 리뷰 GQA 배경 설명GQA는 2023년에 발표된 논문이다. GQA는 llama 2에서 도입된 기술로 유명하다. language model에서 transformer의 multi-head attention 구조 때문에, inference 시간이 너무 오래 걸린다는 문제가 있었고, 이를 해결하기 위한 방법을 제시하였다. (사실, 전에 등장한 multi-query attention과 multi-head attention 방식의 절충안을 제시한 논문이다.)최근에는 당연하게 받아들여져, 대규모 AI 모델에는 당연하게 사용된다고 한다. AbstractMulti-query attention(MQA)는 하나의 key-value head를 사용하여 decoder의 inference 시간을 줄인다.하지만, MQA는 mode.. 2024. 8. 1. PaLM(Scaling Language Modeling with Pathways) 논문 리뷰 PaLM 배경 설명 PaLM은 google에서 2022년에 발표한 LLM 관련 논문이다. GPT 이후의 NLP 분야의 거의 모든 논문이 그랬듯, Model Paramter를 더 크게 늘렸고, GPT-3의 흐름을 따라, task-specific 한 model이 아닌, 다양한 NLP 분야를 cover 하는 모델로 학습된다. 사실 GPT 등장 이후로 LLM 모델에서의 구조 변화는 크게 없다. Model parameter를 계속 늘리고, 이에따라 성능은 계속 좋아진다. 따라서, 기존 LLM과 달라진 부분에 집중하여 논문 리뷰를 시작한다. Abstract Language Model은 few-shot 방식을 사용하여, task-specific 학습에 필요한 데이터의 양을 줄이면서, 좋은 성능을 보여줬다. few-s.. 2023. 6. 29. GPT-3 (Language Models are Few-Shot Learners) 논문 리뷰 GPT-3 배경 설명 GPT-3은 요즘 많이 사용하는 ChatGPT의 근간이 된 논문으로, 2020년 OpenAI에서 NIPS에 발표한 논문이다. Language Model의 parameter가 꾸준히 늘어가는 추세였는데, GPT-3에서는 기존의 가장 큰 모델보다 거의 10배 정도의 많은 parameter를 넣을 정도로 큰 모델을 사용하였다. Model scaling-up을 통해 few-shot에서도 Task-Specific 한 기존의 finetuning 모델들의 성능에 필적하는 성능을 보여주었다. (이 시도가 현재 ChatGPT를 만든 것 같다.) Abstract 최근 NLP task에서 large corpus의 pre-training을 기반으로한 언어모델들이 큰 효과를 내고 있다. 하지만, 대부분의 .. 2023. 6. 12. GreaseLM(Graph Reasoning Enhanced Language Modles For Question Answering) 논문 리뷰 GreaseLM 배경 설명GreaseLM은 2022년 Stanford에서 나온 ICLR 논문이다.사실 KG에 대해, 전문적인 지식은 없지만, 최근 Language Model에 KG 정보 등을 이용해서 성능을 높이려는 방식이 많이 사용되고 있는 것 같아 흥미가 생긴다.이 논문은 KG를 단순 LM의 학습을 도와주는 용도가 아니라, 두 modality 간의 정보를 섞는 fusion 개념으로 KG와 LM을 사용하였기에 굉장히 가치가 있는 논문이라고 생각한다. Abstract복잡한 텍스트 내러티브 질문에 대답하기 위해서는 Context와 그 안에 숨겨진 지식들 모두에 대한 추론이 필요하다.현재(그 당시) QA 시스템들에 많이 사용되는 pretrained Language Model(LM)은 concept 들 간의 .. 2023. 5. 23. 이전 1 다음