본문 바로가기

AI/NLP

Transformer-XL : Attentive Language Models Beyond a Fixed-Length Context 본 포스팅은 Transformer-XL : Attentive Language Models Beyond a Fixed-Length Context 논문의 리뷰를 다루고 있습니다. 개인적 고찰은 파란색으로 작성하였습니다. 해당 내용에 대한 토론을 환영합니다 :) Introduction Language modeling은 long-term dependency를 modeling하는 전형적인 문제 중 하나입니다. Sequential data를 neural network로 모델링하기 위해서는 이러한 long-term dependecy를 모델링하는 것이 관건이겠습니다. 기존 Language modeling의 standard solution은 RNN, 그 중에서도 LSTM으로 많이 해결하였는데요, RNN은 vanishin..
Time-Series Transformers 1. TS-BERT: A fusion model for Pre-trainning Time Series-Text Representations '뉴스(=text)'와 '주가(=numeric)'는 관계가 있는 time-series data이다 뉴스 기사에 대한 embedding : Text Representation, Transformer(BERT)로 embedding 주가에 대한 embedding : Stock time-series data, RNN으로 embedding 두 embedding을 Multi-modal compact bilinear pooling (MCB pooling)로 fusion함 MCB : multi-modal data의 정보를 압축하여 두 가지 다른 정보를 담기 위해 고려한 poolin..
Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks 본 포스팅은 Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks논문의 리뷰를 다루고 있습니다. 개인적 고찰은 파란색으로 작성하였습니다. 해당 내용에 대한 토론을 환영합니다 :) Summary LLM(Large Language Model)을, 수행하고자 하는 task domain에 맞게 pre-training하는 것은 LLM을 task specific PT모델로 만드는 효과가 있다. (Domain Adaptive Pre-Training, DAPT) 이에 더불어, 수행하고자 하는 task dataset에 대해서도 pre-training하는 것 또한 task 성능 향상에 직접적으로 기여한다 (TAPT) ⎯심지어 DAPT보다도 더 효과가 있다...
Evaluation Metrics for Language Models 언어모델(Language Model)의 성능을 측정하는 방법은 여러가지가 있습니다. NLP에는 Summarization, Translation, Story generation 등 다양한 task가 존재하는데, 그 목적에 따라 관심 갖는 평가가 다를 수 있습니다. 예를 들면, 번역의 경우 source 언어로부터 다양하게 target 언어를 만들어 낼 수 있으므로 모델이 만들어내는 결과에 초점을 맞추는 것이 중요합니다. 반면, 요약의 경우에는 마찬가지로 다양한 문장으로 요약될 수 있지만 반드시 포함되어야 하는 키워드를 얼마나 재현하는 지가 중요할 것입니다. 이렇듯 다양한 task에 부합하는 평가 지표를 사용하는데, 대표적으로 Perplexity (PPL), BLEU, ROUGE가 있습니다. Perplexit..
GPT decides to stop generation: Semantics of the Unwritten, The Effect of End of Paragraph ... 본 포스팅은 Semantics of the Unwritten: The Effect of End of Paragraph and Sequence Tokens on Text Generation with GPT2논문의 리뷰를 다루고 있습니다. 개인적 고찰은 파란색으로 작성하였습니다. 해당 내용에 대한 토론을 환영합니다 :) Motivation Auto-regressive의 대표적인 모델인 GPT는 input sequence length에 제한이 있다. GPT가 주어진 문장 다음에 이어질 Token을 생성할 때, 알아서 generation stop을 할 수 없을까? GPT-2에서는 아쉽게도 이러한 기능을 직접적으로 구현할 수 없는데, 간접적으로 가능하도록 하는 방법이 있을 것 같다. 이상적으로 GPT가 적절하게 ..
Open Source GPT-3 (GPT-Neo, GPT-J) 개요 GPT 계열의 모델 발전은 학습 데이터의 양과 컴퓨팅 자원의 증가가 주요하였음 (최근 GPT-3.5—ChatGPT까지도) 특히 GPT-3부터는 놀라운 성능임에도 불구하고 model parameter수가 급증함(175B)에 따라 컴퓨팅 자원이 받쳐주지 않는 이상 이용이 불가한 수준임 게다가, OpenAI에서 GPT-3모델을 공개하지 않고, 데모와 API를 통해서만 제공함 이에, 오픈소스 연구단체인 Eleuther AI는 GPT-3의 오픈소스 버전인 GPT-Neo와 GPT-J를 공개함 (학습 및 테스트 데이터셋—The Pile 데이터셋—및 코드를 공개) 두 모델 모두 Huggingface에서 지원하고 있음 GPT-Neo mesh-tensorflow를 이용한 모델 → Huggingface에서는 PyTor..
Transformer-based Seq2Seq: Leveraging Pre-trained Checkpoints for Sequence Generation Task 본 포스팅은 Leveraging Pre-trained Checkpoints for Sequence Generation Task 논문의 리뷰를 다루고 있습니다. 개인적 고찰은 파란색으로 작성하였습니다. 해당 내용에 대한 토론을 환영합니다 :) Background BERT와 같은 pre-trained model은 Natural Language Understanding(NLU) 분야에서는 괄목할만한 성과를 달성하였지만, sequence generation과 같은 decoder-based task에 대해서는 큰 효과를 보이지 못함 이러한 흐름에서, BERT-NMT와 같은 machine translation에 특화된 구조를 채태하는 논문도 같은 시기에 등장하였고, 이에 본 논문도 같은 흐름으로 연구되었다고 생각함..
GPT-2 : Language Models are Unsupervised Multitask Learners 본 포스팅은 GPT-2의 논문 리뷰를 다루고 있습니다. 개인적 고찰은 파란색으로 작성하였습니다. 해당 내용에 대한 토론을 환영합니다 :) Background (Motivation) 다양한 NLP task(question and answering, machine translation, summarization)들은 task-specific한 dataset과 그에 맞는 fine-tuning을 요구함 이는 ML 전반에서 typical한 model 구축/생성 방식이라고 생각함 특정 domain에서, 특정 task를 잘 수행하는 ML model을 만들기 위해서 task에 맞는 domain의 dataset을 구축해야하고, 기대하는 task를 잘 수행할 수 있게 학습시키고 (supervision을 통해) i.i.d ..
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 본 포스팅은 BERT의 논문 리뷰를 다루고 있습니다. 개인적 고찰은 파란색으로 작성하였습니다. 해당 내용에 대한 토론을 환영합니다 :) Introduction Language model pre-training은 많은 NLP task에서 효과를 입증해 옴 Sentence-level task: NLI (Natural Language Inference) Token-level task: NER (Name Entity Recognition), QA (Question and answering) Pre-trained language representation task는 크게 두 가지 approach가 존재 Feature-based: Task-specific architecture에 pre-trained represe..