NAVER AI Tech/Deep Learning
5. RNN, LSTM, GRU
코딩소비
2023. 11. 21. 14:07
RNN problem : Short / Long term dependency(Vanishing gradient)
Thus, LSTM use input gate, forget gate, output gate
- forget gate : 과거를 요약하여 담은 정보.
GRU : simpler LSTM
- no cell state, just hidden state
self. rnn = nn.LSTM(input_size=self.xdim, hidden_size=self.hdim, num_layers=self.n_layers, batch_first=True)
self.linear = nn.Linear(self.hdim, self.ydim)
LSTM의 gate는 사실상 linear function이라 파라미터가 생각보다 매우 많다.