NAVER AI Tech/Deep Learning(8)
-
7. Generative Model.
What Generative Model do? - we want to learn a probability distribution p(x) 28 x 28 image 생성 시 - 각 pixel이 서로 연관이 있기 때문에 경우의 수는 2**28, 이때 필요한 파라미터는 2**28 -1 개 - p(x)를 알기 위해서는 2**28-1개만 알면 나머지 하나는 총 확률 합=1 에 의해 자동적으로 알게 되므로. Independence - 각 pixel이 독립이라고 가정한다면? 경우의수는 2**28, 하지만 필요한 파라미터는 n개. - 서로 독립시행이기 때문에 파라미터 개수를 엄청나게 줄일 수 있다. - 하지만 그만큼 표현력이 줄어드는 것도 사실. 그리고 28x28 image에서 각 pixel은 연관성이 있는것도 사실...
2023.11.22 -
6. Transformer
sequential modeling probelm - input과 output 길이가 달라야할 수 있다. 예를 들면 한국어 - 영어 번역같은 경우. - 심지어 input과 output시 적용될 domain이 다를 수 있음. Transformer : stack of encoders and decoders - encoder : self-attention layer + Feed Forward Neural Network layer attention layer : output을 생성 시 하나의 input만 고려하는것이 아니라 sequence의 모든 input을 고려함. - query, key, value parameter matrix를 사용. 1. input word(=query matrix를 이용하여 query..
2023.11.21 -
5. RNN, LSTM, GRU
RNN problem : Short / Long term dependency(Vanishing gradient) Thus, LSTM use input gate, forget gate, output gate - forget gate : 과거를 요약하여 담은 정보. GRU : simpler LSTM - no cell state, just hidden state self. rnn = nn.LSTM(input_size=self.xdim, hidden_size=self.hdim, num_layers=self.n_layers, batch_first=True) self.linear = nn.Linear(self.hdim, self.ydim) LSTM의 gate는 사실상 linear function이라 파라미터가 생각..
2023.11.21 -
5. CNN problems
Semantic Segmentation - 이미지 분할 기법 : 일부 영역은 자전거, 일부 영역은 사람 등 영역을 분할하기. - 자율주행에서 사용함. Fully Convolutional Network(FCN) : Dense layer 없애고 Convolution으로 대체. - 그냥 flatten 과정만 없앤 것. 파라미터 개수는 똑같다. - 고양인지 아닌지 분류 출력에서 어느 위치에 고양이가 존재하는지 heatmap 출력으로 바뀐다. YOLO : bounding box and class probabilities.
2023.11.21 -
4. CNN
Convolution 연산 - filter와 image의 element-wise multiply 계산 - filter에 따라 blur, emboss, outline 등 효과를 줄 수 있다. - stride, padding의 개념도 이해해야 함. - 1x1 convolution : dimension reduction(=reduce the number of parameters while increasing the depth) CNN consists of convolution layer, pooling layer and fully connected layer - convolution layer and pooling layer : feature extraction - fully connected layer : ..
2023.11.21 -
3. Deep Learning 용어 정리
optimization : local optima이 가기 위한 최적화. Generalization : 일반화. 즉 test set에 대해 성능이 좋나? - underfitting : 애초에 학습이 별로 잘 되지 않음. 이유는 학습 데이터셋이 부족할 확률이 존재. - overfitting : train set에 과적합. 해결 방법은 cross-validation Bias , Variance - Bias : 모델의 성능 - Variance : 일관적인가? 재현률. Bootstrapping - make random sampling with replacement (apply different any test or metric) - bagging : 학습 데이터를 n개로 쪼개고 n개의 모델을 만든 후 앙상블(ag..
2023.11.20