AI/NLP
Time-Series Transformers
숨니야
2024. 1. 16. 16:28
1. TS-BERT: A fusion model for Pre-trainning Time Series-Text Representations
- '뉴스(=text)'와 '주가(=numeric)'는 관계가 있는 time-series data이다
- 뉴스 기사에 대한 embedding : Text Representation, Transformer(BERT)로 embedding
- 주가에 대한 embedding : Stock time-series data, RNN으로 embedding
- 두 embedding을 Multi-modal compact bilinear pooling (MCB pooling)로 fusion함
- MCB : multi-modal data의 정보를 압축하여 두 가지 다른 정보를 담기 위해 고려한 pooling layer
- 적용 및 한계점
- BERT / Transformer에 직접적으로 attention/transformer모듈을 붙인 것이 아닌, 단순 RNN을 붙여 추가 정보를 담음
- 주가는 시계열 그 자체로 의미가 있지만, event occurrence time은 굉장히 linear한 시간 흐름일 뿐임
- MLP / Linear layer로 이를 모델링할 수 있지만 과연 transformer의 text정보와 합쳐질 때 제 기능을 할 지 의문
2. Gated Transformer Networks for Multivariate Time Series Classification
- TransTab에서 사용한 Gated Transformer를 처음 제안한 논문
- "multi-variate" time series : 일반적인 time-series data는 단일 변수 하나에 시계열성이 존재하는 데이터임⎯위에서 예시를 든 주가라든지, 기온이라든지
- 이를 univariate time-series라고 부르는데, 일반적으로 time-series라고 부르는 data는 (univariate) time-series라고 생각하면 됨
- 하지만 여러 시계열성⎯이를 multivariate time series data라고 부름⎯을 한번에 모델링하기 위해서는 어떻게 해야할까?
- 위와 같이 두 개의 transformer 구조―two towrs of Transformers ― 를 두고, 각 transformer모듈의 학습을 제어하는 gate를 둔 architecture를 제안함―gated transformer network
- Transformer 하나는 time-step간의 연관성, 다른 Transformer는 feature간의 연관성을 모델링함 (그래서 step에만 positional embedding이 존재하는 것)
- 쉽게 말해서, multi-variate time-series data를 종으로도 모델링하고 횡으로도 모델링하는 것
- Transtab구조에서는 각각의 column들 모두 univariate time-series data라고 간주하고, tabular data를 multi-variate time-series data라고 간주한 듯함
3. Temporal fusion Transformers for Interpretable Multi-horizion Time Series Forecasting
- Multi-horizon forecasting : 한 번에 다음 step만을 예측하는 것이 아닌 여러 step을 예측하는 task
- static meta data + time-series data를 (variable selection + LSTM encoder) 모듈로 recurrent하게 학습하는 구조를 제안
- 다만, 이전 input과 더불어 미래 시점의 input을 미리 알고 있어야 가능한 문제 setup -> unreal함