30. Bounding Box Predictions
2023. 9. 17. 15:32ㆍGoogle ML Bootcamp/4. Convolutional Neural Networks
Solution : YOLO(You Only Look Once) algorithm
이때 YOLO는 9개의 이미지에 대해 각각 ImageNet을 돌리는게 아니라 Window Sliding(stride = window size)인 채로 한번에 학습을 진행한다.
- 이때 Y.shape : (3,3,8)이 된다. 각 격자에 대해 ImageNet하나를 돌렸을때 softmax 결과가 8차원이므로.
- Fully Connected layer가 아닌 Convolution 구현임으로 계산 비용이 낮아 실시간 탐지에도 사용될 수 있는 알고리즘이다.
의문인 것은.. 객체의 빨간색 테두리가 격자의 범위를 벗어났는데 bx,by,bh,bw를 어떻게 올바르게 설정할 수 있을까?
9개의 image에 대해서 각각 ImageNet을 수행하는것이 아니라 convolution 구현을 통해 진행함을 가정했을 때 bh,bw could be >=1 임은 어느정도 예상할 수 있다. 정확히 네 모서리의 좌표를 기록하는 것이 아니니까.
- 그럼에도 image 경계선이 주어졌는데..... width가 1보다 큰걸 어떻게 알 수 있지?
'Google ML Bootcamp > 4. Convolutional Neural Networks' 카테고리의 다른 글
32. Non-max Suppression (0) | 2023.09.17 |
---|---|
31. Intersection Over Union (0) | 2023.09.17 |
29. Convolutional Implementation of Sliding Windows (0) | 2023.09.17 |
28. Object Detection (0) | 2023.09.16 |
27. Landmark detection (0) | 2023.09.16 |