본문 바로가기

분류 전체보기

Transformer-XL : Attentive Language Models Beyond a Fixed-Length Context 본 포스팅은 Transformer-XL : Attentive Language Models Beyond a Fixed-Length Context 논문의 리뷰를 다루고 있습니다. 개인적 고찰은 파란색으로 작성하였습니다. 해당 내용에 대한 토론을 환영합니다 :) Introduction Language modeling은 long-term dependency를 modeling하는 전형적인 문제 중 하나입니다. Sequential data를 neural network로 모델링하기 위해서는 이러한 long-term dependecy를 모델링하는 것이 관건이겠습니다. 기존 Language modeling의 standard solution은 RNN, 그 중에서도 LSTM으로 많이 해결하였는데요, RNN은 vanishin..
Universal Source-free Domain Adaptation 본 포스팅은 Universal Source-free Domain Adaptation논문의 리뷰를 다루고 있습니다. 개인적 고찰은 파란색으로 작성하였습니다. 해당 내용에 대한 토론을 환영합니다 :) Motivation Domain-shift가 있는 상황에서 knowledge of class-seperability (i.e., 학습된 classifier가 decision boundary를 긋는 능력―그냥 classification 성능)하는 많은 방법들이 존재하나, 이는 모두 source- target label-set relationship에 의존한 결과들임 (e.g. closed-set, open-set, partial-DA) 또한, 모든 unsupervised domain adaptation분야에서선 ..
Exploiting the Intrinsic Neighborhood Structure for Source-free Domain Adaptation (NIPS 2021) 본 포스팅은 Exploiting the Intrinsic Neighborhood Structure for Source-free Domain Adaptation논문의 리뷰를 다루고 있습니다. 개인적 고찰은 파란색으로 작성하였습니다. 해당 내용에 대한 토론을 환영합니다 :) Motivation 본 논문은 closed-set source-free domain adaptation 방법론에 대해 다루고 있음 방법론의 직접적은 motivation은 위 그림처럼 target domain의 data들이 source domain classifier의 decision boundary로 명확히 나눌 수 는 없어도 source model이 extract한 target feature자체는 class cluster를 형성한다는 ..
Guiding Pseudo-labels with Uncertainty Estimation for Source-free Unsupervised Domain Adaptation 본 포스팅은 Guiding Pseudo-labels with Uncertainty Estimation for Source-free Unsupervised Domain Adaptation논문의 리뷰를 다루고 있습니다. 개인적 고찰은 파란색으로 작성하였습니다. 해당 내용에 대한 토론을 환영합니다 :) Summary SF-UDA (source-free unsupervised domain adaptation)에서 반드시 introduceehlsms pseudo-label 이에 따라 learning objective가 noisy pseudo label⎯잘못 만들어진 pseudo label⎯에 영향받지 않게 uncertainty기반으로 loss를 re-weighting하는 방법 Terminology Test-tim..
Time-Series Transformers 1. TS-BERT: A fusion model for Pre-trainning Time Series-Text Representations '뉴스(=text)'와 '주가(=numeric)'는 관계가 있는 time-series data이다 뉴스 기사에 대한 embedding : Text Representation, Transformer(BERT)로 embedding 주가에 대한 embedding : Stock time-series data, RNN으로 embedding 두 embedding을 Multi-modal compact bilinear pooling (MCB pooling)로 fusion함 MCB : multi-modal data의 정보를 압축하여 두 가지 다른 정보를 담기 위해 고려한 poolin..
Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks 본 포스팅은 Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks논문의 리뷰를 다루고 있습니다. 개인적 고찰은 파란색으로 작성하였습니다. 해당 내용에 대한 토론을 환영합니다 :) Summary LLM(Large Language Model)을, 수행하고자 하는 task domain에 맞게 pre-training하는 것은 LLM을 task specific PT모델로 만드는 효과가 있다. (Domain Adaptive Pre-Training, DAPT) 이에 더불어, 수행하고자 하는 task dataset에 대해서도 pre-training하는 것 또한 task 성능 향상에 직접적으로 기여한다 (TAPT) ⎯심지어 DAPT보다도 더 효과가 있다...
Evaluation Metrics for Language Models 언어모델(Language Model)의 성능을 측정하는 방법은 여러가지가 있습니다. NLP에는 Summarization, Translation, Story generation 등 다양한 task가 존재하는데, 그 목적에 따라 관심 갖는 평가가 다를 수 있습니다. 예를 들면, 번역의 경우 source 언어로부터 다양하게 target 언어를 만들어 낼 수 있으므로 모델이 만들어내는 결과에 초점을 맞추는 것이 중요합니다. 반면, 요약의 경우에는 마찬가지로 다양한 문장으로 요약될 수 있지만 반드시 포함되어야 하는 키워드를 얼마나 재현하는 지가 중요할 것입니다. 이렇듯 다양한 task에 부합하는 평가 지표를 사용하는데, 대표적으로 Perplexity (PPL), BLEU, ROUGE가 있습니다. Perplexit..
AdaContrast: Contrasitive Test-Time Adaptation (CVPR 2022) 본 포스팅은 Contrasitive Test-Time Adaptation논문의 리뷰를 다루고 있습니다. 해당 논문의 concept위주로 핵심만 다루고자 합니다. Summary Test-time adaptation = source-free adaptation self-supervised contrastive learning을 통해 target feature learning을 수행 (w/ pseudo-labeling) 동시에, 1) online pseudo-labeling과 2) pseudo labeling refinement를 수행하며 pseudo-labeling을 denoising함 (중점적으로 봐야할 사안―어떻게 pseudo label을 refine하는지?) closed-set source-free u..
MoCo: Momentum Contrast for Unsupervised Visual Representation Learning (CVPR 2020) 본 포스팅은 Momentum Contrast for Unsupervised Visual Representation Learning논문의 리뷰를 다루고 있습니다. 해당 논문의 concept위주로 핵심만 다루고자 합니다. Summary MoCo는 Unsupervised visual representation방법임 (self-supervised learning, SSL) image의 label에 구애받지 않고 다량의 이미지에 대해 양질의 feature를 뽑아내는 encoder─feature extractor라고 해야하나?─ 를 학습시킬 수 있음 이렇게 학습된 encoder를 fine-tuning하여 목표하는 downstreaming task에 사용할 수도 있을 것임 MoCo는 많은 SSL방식 중 Contras..
GPT decides to stop generation: Semantics of the Unwritten, The Effect of End of Paragraph ... 본 포스팅은 Semantics of the Unwritten: The Effect of End of Paragraph and Sequence Tokens on Text Generation with GPT2논문의 리뷰를 다루고 있습니다. 개인적 고찰은 파란색으로 작성하였습니다. 해당 내용에 대한 토론을 환영합니다 :) Motivation Auto-regressive의 대표적인 모델인 GPT는 input sequence length에 제한이 있다. GPT가 주어진 문장 다음에 이어질 Token을 생성할 때, 알아서 generation stop을 할 수 없을까? GPT-2에서는 아쉽게도 이러한 기능을 직접적으로 구현할 수 없는데, 간접적으로 가능하도록 하는 방법이 있을 것 같다. 이상적으로 GPT가 적절하게 ..