5. RNN, LSTM, GRU

2023. 11. 21. 14:07NAVER AI Tech/Deep Learning

RNN problem : Short / Long term dependency(Vanishing gradient)

 

Thus, LSTM use input gate, forget gate, output gate

- forget gate : 과거를 요약하여 담은 정보.

 

GRU : simpler LSTM

- no cell state, just hidden state

 

self. rnn = nn.LSTM(input_size=self.xdim, hidden_size=self.hdim, num_layers=self.n_layers, batch_first=True)
self.linear = nn.Linear(self.hdim, self.ydim)

 

LSTM의 gate는 사실상 linear function이라 파라미터가 생각보다 매우 많다.

 

 

'NAVER AI Tech > Deep Learning' 카테고리의 다른 글

7. Generative Model.  (0) 2023.11.22
6. Transformer  (1) 2023.11.21
5. CNN problems  (0) 2023.11.21
4. CNN  (0) 2023.11.21
3. Deep Learning 용어 정리  (1) 2023.11.20