NAVER AI Tech(87)
-
6. Transformer
sequential modeling probelm - input과 output 길이가 달라야할 수 있다. 예를 들면 한국어 - 영어 번역같은 경우. - 심지어 input과 output시 적용될 domain이 다를 수 있음. Transformer : stack of encoders and decoders - encoder : self-attention layer + Feed Forward Neural Network layer attention layer : output을 생성 시 하나의 input만 고려하는것이 아니라 sequence의 모든 input을 고려함. - query, key, value parameter matrix를 사용. 1. input word(=query matrix를 이용하여 query..
2023.11.21 -
5. RNN, LSTM, GRU
RNN problem : Short / Long term dependency(Vanishing gradient) Thus, LSTM use input gate, forget gate, output gate - forget gate : 과거를 요약하여 담은 정보. GRU : simpler LSTM - no cell state, just hidden state self. rnn = nn.LSTM(input_size=self.xdim, hidden_size=self.hdim, num_layers=self.n_layers, batch_first=True) self.linear = nn.Linear(self.hdim, self.ydim) LSTM의 gate는 사실상 linear function이라 파라미터가 생각..
2023.11.21 -
5. CNN problems
Semantic Segmentation - 이미지 분할 기법 : 일부 영역은 자전거, 일부 영역은 사람 등 영역을 분할하기. - 자율주행에서 사용함. Fully Convolutional Network(FCN) : Dense layer 없애고 Convolution으로 대체. - 그냥 flatten 과정만 없앤 것. 파라미터 개수는 똑같다. - 고양인지 아닌지 분류 출력에서 어느 위치에 고양이가 존재하는지 heatmap 출력으로 바뀐다. YOLO : bounding box and class probabilities.
2023.11.21 -
4. CNN
Convolution 연산 - filter와 image의 element-wise multiply 계산 - filter에 따라 blur, emboss, outline 등 효과를 줄 수 있다. - stride, padding의 개념도 이해해야 함. - 1x1 convolution : dimension reduction(=reduce the number of parameters while increasing the depth) CNN consists of convolution layer, pooling layer and fully connected layer - convolution layer and pooling layer : feature extraction - fully connected layer : ..
2023.11.21 -
3. Deep Learning 용어 정리
optimization : local optima이 가기 위한 최적화. Generalization : 일반화. 즉 test set에 대해 성능이 좋나? - underfitting : 애초에 학습이 별로 잘 되지 않음. 이유는 학습 데이터셋이 부족할 확률이 존재. - overfitting : train set에 과적합. 해결 방법은 cross-validation Bias , Variance - Bias : 모델의 성능 - Variance : 일관적인가? 재현률. Bootstrapping - make random sampling with replacement (apply different any test or metric) - bagging : 학습 데이터를 n개로 쪼개고 n개의 모델을 만든 후 앙상블(ag..
2023.11.20 -
2. Neural Network 개념 및 코드
Neural Network - function that stack affine transformations followed by non-linear transformers. - 즉 비선형 함수를 stacking한 함수를 Neural Network라고 부른다. 이렇게 표현하는게 조금 더 수학적인 표현이다. - affine transformer(=linear transformers) : 점,직선,평면을 보존하는 선형 매핑 방법. 즉 matrix multiply. - affine transformer(아핀 변환) 라는건 m차원의 input을 n차원의 output으로 변환 Multi-Layer Perceptron(=N-layer Neural Network) - 다양한 loss function 존재. model ..
2023.11.20