코딩소비 2023. 9. 10. 15:29

Train / Valid / Test sets.

 

dev : cross-validation set

 

how about ratio?

- train / test = 7:3 or train / valid / test = 6:2:2

- but 빅데이터 시대에서는 총 데이터가 1,000,000개 이상일 때 Valid , Test set은 10,000개만 있어도 충분하다.

- 거의 98:1:1

 

**중요 : Mistmatched train/test distribution**

- train과 test set의 분포 양상이 다르다면, 학습한게 의미가 없는 결과를 나을 수도 있다.

 

Not having a test set might be okay. (Only dev set)