13. Cleaning Up Incorrectly Labeled Data

2023. 9. 14. 17:32Google ML Bootcamp/3. Structuring Machine Learning Projects

만약 training set에서 X,Y 매핑이 잘못 되어 있다면? 이를 검증하고 고치는 것이 유용할까??

- 해당 오류 비율이 전체 데이터셋에 비해 크지 않다면 상관이 없긴 하다.

- 또한 랜덤성으로 주어진 오류라고하면 상관없다(예를 들면, 인위적으로 하얀 강아지는 모두 고양이라고 잘못 표기했을 경우 제외)

 

분석 :

1. 이전 슬라이드에서 배웠던 오류 분석을 진행(Incorrectly Labeled라는 column추가)

2. 잘못 표기된 라벨로 인한 오류가 어디에 얼마나 영향을 미치는지 분석

전체 1000개 중 error는 10%, error중 Incorrect label로 인해 발생한건 6%. 따라서 전체 중 0.6%

분석해보면 incorrect label을 해결하는 것 보다 Great Cat문제 혹은 Blurry 문제를 해결하는게 시급하다.

 

**중요 : 성능을 향상시키기 위한 고민으로 오류 분석을 직접적으로 해본적은 없다. AI대회를 나간다면 이를 진행해보자.**

- 오류 분석 후 Dev set을 수정할 경우 Test set에도 똑같이 적용하여야 한다.(same distribution) -> Train에는 안해도 되는데 이유는 다음 강의에서 알아보자.

- 틀린놈만 분석하지 말고 무엇을 잘맞추는지도 분석해야한다.