13. Cleaning Up Incorrectly Labeled Data
2023. 9. 14. 17:32ㆍGoogle ML Bootcamp/3. Structuring Machine Learning Projects
만약 training set에서 X,Y 매핑이 잘못 되어 있다면? 이를 검증하고 고치는 것이 유용할까??
- 해당 오류 비율이 전체 데이터셋에 비해 크지 않다면 상관이 없긴 하다.
- 또한 랜덤성으로 주어진 오류라고하면 상관없다(예를 들면, 인위적으로 하얀 강아지는 모두 고양이라고 잘못 표기했을 경우 제외)
분석 :
1. 이전 슬라이드에서 배웠던 오류 분석을 진행(Incorrectly Labeled라는 column추가)
2. 잘못 표기된 라벨로 인한 오류가 어디에 얼마나 영향을 미치는지 분석
분석해보면 incorrect label을 해결하는 것 보다 Great Cat문제 혹은 Blurry 문제를 해결하는게 시급하다.
**중요 : 성능을 향상시키기 위한 고민으로 오류 분석을 직접적으로 해본적은 없다. AI대회를 나간다면 이를 진행해보자.**
- 오류 분석 후 Dev set을 수정할 경우 Test set에도 똑같이 적용하여야 한다.(same distribution) -> Train에는 안해도 되는데 이유는 다음 강의에서 알아보자.
- 틀린놈만 분석하지 말고 무엇을 잘맞추는지도 분석해야한다.
'Google ML Bootcamp > 3. Structuring Machine Learning Projects' 카테고리의 다른 글
15. Training and Testing on Different Distributions (0) | 2023.09.14 |
---|---|
14. Bulid your First System Quickly, then Iterate (0) | 2023.09.14 |
12. Error Analysis (0) | 2023.09.14 |
11. Improving your model Performance (0) | 2023.09.14 |
10. Surpassing Human-level Performance (0) | 2023.09.14 |