전체 글(327)
-
13. Cleaning Up Incorrectly Labeled Data
만약 training set에서 X,Y 매핑이 잘못 되어 있다면? 이를 검증하고 고치는 것이 유용할까?? - 해당 오류 비율이 전체 데이터셋에 비해 크지 않다면 상관이 없긴 하다. - 또한 랜덤성으로 주어진 오류라고하면 상관없다(예를 들면, 인위적으로 하얀 강아지는 모두 고양이라고 잘못 표기했을 경우 제외) 분석 : 1. 이전 슬라이드에서 배웠던 오류 분석을 진행(Incorrectly Labeled라는 column추가) 2. 잘못 표기된 라벨로 인한 오류가 어디에 얼마나 영향을 미치는지 분석 분석해보면 incorrect label을 해결하는 것 보다 Great Cat문제 혹은 Blurry 문제를 해결하는게 시급하다. **중요 : 성능을 향상시키기 위한 고민으로 오류 분석을 직접적으로 해본적은 없다. AI..
2023.09.14 -
12. Error Analysis
개를 더 잘 식별하도록 할 것인가? - 이런 과정을 거친 후 모델을 업그레이드 했음에도 결과가 크게 상승하지 않을 수 있다 = 시간낭비 시간낭비 하지 않으려면 우리가 할 시도가 얼마나 가치있는지 어떻게 평가하나? 1. Dev set에서 mislabeled example을 살펴본다. - 결과적으로 모델 예측을 관찰해보았을 때, 에러 100개 중 강아지 사진이 5개일 때 , 강아지를 더 잘맞추게 업그레이드 해봤자 최대 성능향상은 5개이다. - 전체 사진은 1000개 이므로 100개가 잘못된 상황이다. 따라서 5개를 모두 맞추도록 모델을 업그레이드 하더라도 전체 에러에서는 0.5%만 향상된다. = 시간낭비 이를 머신러닝 문제에서는 Ceiling이라고 부른다. - 성능개선의 상한선 = 시간투자할만한 가치의 기준..
2023.09.14 -
11. Improving your model Performance
supervised learning 1. fit training set (=avoidable bias) - train bigger model(number of units, layers, etc...) - train longer - train with beteer optimization algorithm(momentum, RMSprop, Adam etc...) - change NN architecture(RNN to CNN etx...) - hyperparameter search 2. generalize to the dev/test set(=down variance) - More data - Reularization(L2, Dropout, data augumentation) - change NN archi..
2023.09.14 -
10. Surpassing Human-level Performance
인간이 기계보다 잘하는 것 : unstructure data
2023.09.14 -
9. Understanding Human-level Performance
상황마다 다르지만 d로 설정하는것이 바람직하며, 기계의 성능은 bayes error를 통해 d까지 향상시킬 수 있다. 하지만 어플리케이션 도입 관점에서는 b와 같은 수준만 달성하더라도 굉장히 유용할 수 있다. Human-level error는 proxy for bayes error를 통해 구할 수 있다.
2023.09.14 -
8. Avoidable Bias
Bayes Error = Avoid bias(error) - 즉 성능 상항선이라고 생각하면 쉬움.(=인간 성능 - 학습 성능) Train performance - Dev performance = variance
2023.09.14