5. RNN, LSTM, GRU

코딩소비 2023. 11. 21. 14:07

RNN problem : Short / Long term dependency(Vanishing gradient)

Thus, LSTM use input gate, forget gate, output gate

- forget gate : 과거를 요약하여 담은 정보.

GRU : simpler LSTM

- no cell state, just hidden state

self. rnn = nn.LSTM(input_size=self.xdim, hidden_size=self.hdim, num_layers=self.n_layers, batch_first=True)
self.linear = nn.Linear(self.hdim, self.ydim)

LSTM의 gate는 사실상 linear function이라 파라미터가 생각보다 매우 많다.