분류 전체보기(327)
-
28. Object Detection
즉 stride 하면서 빨간박스 내에 차가 있냐 없냐로 기록. - input 이 car image, output이 0 or 1 이였을 때 학습 시 차가 가운데 왔을 때 객체 탐지율이 높으므로 crop을 통해 비슷하게 환경을 조성 sliding and serveral box size cause high computation cost. - every single step run by ConvNet (=deep neural network)
2023.09.16 -
27. Landmark detection
이떄 눈 말고도 얼굴인식, 눈동자인식 등 다양한 부위가 필요할 수 있다. 이때 부위를 랜드마크라고 부른다. - 탐지하고자 하는 랜드마크의 개수가 많을수록 output dimension은 커질 것이다. - 또한 P(c)와 같이 맨 위에는 해당 랜드마크가 존재하는지 안하는지 여부에 대한 output도 함께있다.
2023.09.16 -
26. Object Localization
localization in image well - output : softmax (x,y,h,w) - 차를 표기하는 빨간박스에 대하여 중심점 좌표를 x,y 그리고 박스의 크기를 h,w로 하여 이것을 정답으로 설정할 수 있다. 물론 localization 위치에 대한 정보 bx,by,bw,bh 뿐만아니라 객체의 label 또한 output으로 설정할 수 있다. - label, bx,by,bw,bh 모두 출력으로 하는 network를 구축할 수 있음. 근데.. C1,C2,C3가 모두 0이면 그냥 P(c) = 0인거 아닌가? 왜 굳이 필요할까..? - P(c)에 따라 다른 loss function을 사용.
2023.09.16 -
25. State of Computer Vision
Hand engineering - 모델 아키텍처 구축도 포함된다. - 현재까지 모델의 파라미터 개수에 비해 데이터 수는 턱없이 부족한 상황이다(빅데이터 시대라고 하더라도) - 따라서 모델 구조에 대한 많은 논문(=hand engineering)이 나오는 중이다. 데이터가 적을 때는 transfer learning이 도움되기도 하며, computer vision에서 거의 default 값이다. Tips: 1. Ensembling : pretrained 모델에서 몇개의 layer weight만 초기화한채로 학습시켜보아라. - 적은 수의 데이터로 하고자 하는 task에 대해 좋은 성능을 보일 수 있다. 2. Multi-crop at test time - 테스트 image에 대하여 10-crop 이미지를 생성해..
2023.09.16 -
24. Data Augumentation 2023.09.16
-
23. Transfer Learning
github에서 코드 뿐만 아니라 모델의 파라미터까지도 다운받을 수 있다. - pretrained model 이라고 한다. 이후 모델의 Output layer를 수정하거나 출력을 위한 layer를 추가하여 재학습 시킨다 - 이때는 다운받은 모델의 파라미터를 학습시킬지, 학습시키지 않을지 정할 수 있다. - 마지막 Layer만 학습시킨다고 생각하면 편하다. - 단, 새로운 task를 위한 data가 적을 때. if 새로운 task를 위한 data가 많을때는 가능한 많은 모델의 파라미터를 학습시키는것이 좋다.
2023.09.16