13. Cleaning Up Incorrectly Labeled Data

13. Cleaning Up Incorrectly Labeled Data

2023. 9. 14. 17:32ㆍGoogle ML Bootcamp/3. Structuring Machine Learning Projects

만약 training set에서 X,Y 매핑이 잘못 되어 있다면? 이를 검증하고 고치는 것이 유용할까??

- 해당 오류 비율이 전체 데이터셋에 비해 크지 않다면 상관이 없긴 하다.

- 또한 랜덤성으로 주어진 오류라고하면 상관없다(예를 들면, 인위적으로 하얀 강아지는 모두 고양이라고 잘못 표기했을 경우 제외)

분석 :

1. 이전 슬라이드에서 배웠던 오류 분석을 진행(Incorrectly Labeled라는 column추가)

2. 잘못 표기된 라벨로 인한 오류가 어디에 얼마나 영향을 미치는지 분석

분석해보면 incorrect label을 해결하는 것 보다 Great Cat문제 혹은 Blurry 문제를 해결하는게 시급하다.

**중요 : 성능을 향상시키기 위한 고민으로 오류 분석을 직접적으로 해본적은 없다. AI대회를 나간다면 이를 진행해보자.**

- 오류 분석 후 Dev set을 수정할 경우 Test set에도 똑같이 적용하여야 한다.(same distribution) -> Train에는 안해도 되는데 이유는 다음 강의에서 알아보자.

- 틀린놈만 분석하지 말고 무엇을 잘맞추는지도 분석해야한다.

15. Training and Testing on Different Distributions (0)	2023.09.14
14. Bulid your First System Quickly, then Iterate (0)	2023.09.14
12. Error Analysis (0)	2023.09.14
11. Improving your model Performance (0)	2023.09.14
10. Surpassing Human-level Performance (0)	2023.09.14

코딩소비