본문 바로가기

AI

Open Source GPT-3 (GPT-Neo, GPT-J) 개요 GPT 계열의 모델 발전은 학습 데이터의 양과 컴퓨팅 자원의 증가가 주요하였음 (최근 GPT-3.5—ChatGPT까지도) 특히 GPT-3부터는 놀라운 성능임에도 불구하고 model parameter수가 급증함(175B)에 따라 컴퓨팅 자원이 받쳐주지 않는 이상 이용이 불가한 수준임 게다가, OpenAI에서 GPT-3모델을 공개하지 않고, 데모와 API를 통해서만 제공함 이에, 오픈소스 연구단체인 Eleuther AI는 GPT-3의 오픈소스 버전인 GPT-Neo와 GPT-J를 공개함 (학습 및 테스트 데이터셋—The Pile 데이터셋—및 코드를 공개) 두 모델 모두 Huggingface에서 지원하고 있음 GPT-Neo mesh-tensorflow를 이용한 모델 → Huggingface에서는 PyTor..
Transformer-based Seq2Seq: Leveraging Pre-trained Checkpoints for Sequence Generation Task 본 포스팅은 Leveraging Pre-trained Checkpoints for Sequence Generation Task 논문의 리뷰를 다루고 있습니다. 개인적 고찰은 파란색으로 작성하였습니다. 해당 내용에 대한 토론을 환영합니다 :) Background BERT와 같은 pre-trained model은 Natural Language Understanding(NLU) 분야에서는 괄목할만한 성과를 달성하였지만, sequence generation과 같은 decoder-based task에 대해서는 큰 효과를 보이지 못함 이러한 흐름에서, BERT-NMT와 같은 machine translation에 특화된 구조를 채태하는 논문도 같은 시기에 등장하였고, 이에 본 논문도 같은 흐름으로 연구되었다고 생각함..
GPT-2 : Language Models are Unsupervised Multitask Learners 본 포스팅은 GPT-2의 논문 리뷰를 다루고 있습니다. 개인적 고찰은 파란색으로 작성하였습니다. 해당 내용에 대한 토론을 환영합니다 :) Background (Motivation) 다양한 NLP task(question and answering, machine translation, summarization)들은 task-specific한 dataset과 그에 맞는 fine-tuning을 요구함 이는 ML 전반에서 typical한 model 구축/생성 방식이라고 생각함 특정 domain에서, 특정 task를 잘 수행하는 ML model을 만들기 위해서 task에 맞는 domain의 dataset을 구축해야하고, 기대하는 task를 잘 수행할 수 있게 학습시키고 (supervision을 통해) i.i.d ..
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 본 포스팅은 BERT의 논문 리뷰를 다루고 있습니다. 개인적 고찰은 파란색으로 작성하였습니다. 해당 내용에 대한 토론을 환영합니다 :) Introduction Language model pre-training은 많은 NLP task에서 효과를 입증해 옴 Sentence-level task: NLI (Natural Language Inference) Token-level task: NER (Name Entity Recognition), QA (Question and answering) Pre-trained language representation task는 크게 두 가지 approach가 존재 Feature-based: Task-specific architecture에 pre-trained represe..