전체 글(327)
-
7. Why Human-level Performance?
인간을 모방하는 것을 목적으로 만들어지기 때문에 당연하게도 느껴진다. - 알고리즘이 잘 작동하지 않을 때, 해당 분야 전문가에게 물어보면서 인사이트를 얻고 알고리즘을 발전시키기도 하기 때문.
2023.09.14 -
6. When to Change Dev/Test sets and Metrics?
A는 포르노 사진을 고양이라고 말하기도 하는 치명적인 오류를 가진 알고리즘 but 고양이 분류에 있어서 정확도 자체는 좋다. B는 포르노 사진을 고양이라고 말할리는 없는 알고리즘 but 고양이 분류에 있어서 정확도 자체는 A에 비해 좋지 않다. 이때 Metric가 분류 error를 가지고 있으므로 input이 고양이일 때, 포르노 사진일 때 틀려도 동등한 error를 가지므로 일어나는 일. 중요한건 평가지표(Metric)가 알고리즘에 도움되는 순서대로 선호도를 알려주지 않는다면(고양이를 잘맞추는 것 보다 포르노를 못맞추는게 더 안좋다), 새로운 평가 지표를 도입해야 한다. + if 고품질 사진으로 학습했는데 어플리케이션 단계에서는 저품질 사진이 Input으로 주어진다면, 평가지표와 Dev set을 바꿔야..
2023.09.14 -
5. Size of the Dev and Test sets
Train / test : 7/3 Train / Valid / Test : 6/2/2 if dataset >= 1,000,000 - 98/1/1 - 1% = 10,000 example. enough! No test set might be okay.. - if your dev set size is too big - else, overfitting to dev - 일반적으로 추천하진 않는다.
2023.09.14 -
4. Train/Dev/Test Distributions
**중요 : Train/Dev/Test는 비슷한 분포를 가지도록 설정되어야 한다.**
2023.09.14 -
3. Satisficing and Optimizing Metric
if we want to maximize accuracy, subject to running time < 100ms. - then, B is the best. - 이때 running time은 satisficing, accuracy는 optimizing. 정리 : saticfic metric, optimize metric 설정하기.
2023.09.14 -
2. Single Number Evaluation Metric
평가지표에 대해서 이야기를 해보자 Precision vs Recall - 둘은 trade off 관계. - Precision : 정의를 고양이라고 말한거 중에 얼마나 진짜 고양이 인지.( True Positive / (True Positive + False Positive) ) - Recall(= Sensitivity, hit rate 이라고도 불림) : 정답중에 얼마나 맞췄는지. (True Positive / (True Positive + False Negative)) F1 socre(조화평균) : Precision과 Recall의 평균. - 이걸 평가지표로 사용하는 것이 좋다. - Precision, Recall은 trade off 관계이므로 이 중에 하나를 평가지표로 사용하는 것은 어려울 수 있음.
2023.09.14