30. Bounding Box Predictions

2023. 9. 17. 15:32Google ML Bootcamp/4. Convolutional Neural Networks

sliding window가 차량의 경계선과 완벽하게 일치하지 않을 경우가 더 많다. 어떻게 해결할 수 있을까?

 

Solution : YOLO(You Only Look Once) algorithm

일단 그림을 격자 형태로 나누고, 각 지역에 대해 ImageNet과 같이 학습을 진행한다.

이때 YOLO는 9개의 이미지에 대해 각각 ImageNet을 돌리는게 아니라 Window Sliding(stride = window size)인 채로 한번에 학습을 진행한다.

- 이때 Y.shape : (3,3,8)이 된다. 각 격자에 대해 ImageNet하나를 돌렸을때 softmax 결과가 8차원이므로.

- Fully Connected layer가 아닌 Convolution 구현임으로 계산 비용이 낮아 실시간 탐지에도 사용될 수 있는 알고리즘이다.

 

 

 

의문인 것은.. 객체의 빨간색 테두리가 격자의 범위를 벗어났는데 bx,by,bh,bw를 어떻게 올바르게 설정할 수 있을까?

YOLO에서 한 네모박스에 대한 output을 설정하는 법.

9개의 image에 대해서 각각 ImageNet을 수행하는것이 아니라 convolution 구현을 통해 진행함을 가정했을 때 bh,bw could be >=1 임은 어느정도 예상할 수 있다. 정확히 네 모서리의 좌표를 기록하는 것이 아니니까.

- 그럼에도 image 경계선이 주어졌는데..... width가 1보다 큰걸 어떻게 알 수 있지?

'Google ML Bootcamp > 4. Convolutional Neural Networks' 카테고리의 다른 글

32. Non-max Suppression  (0) 2023.09.17
31. Intersection Over Union  (0) 2023.09.17
29. Convolutional Implementation of Sliding Windows  (0) 2023.09.17
28. Object Detection  (0) 2023.09.16
27. Landmark detection  (0) 2023.09.16