Google ML Bootcamp(181)
-
31. Intersection Over Union
교집합 / 합집합 비율이 0.5 이상이라면 잘 예측한 것으로 판단. - 즉 localization의 결과를 평가할 수 있는 기준.
2023.09.17 -
30. Bounding Box Predictions
Solution : YOLO(You Only Look Once) algorithm 이때 YOLO는 9개의 이미지에 대해 각각 ImageNet을 돌리는게 아니라 Window Sliding(stride = window size)인 채로 한번에 학습을 진행한다. - 이때 Y.shape : (3,3,8)이 된다. 각 격자에 대해 ImageNet하나를 돌렸을때 softmax 결과가 8차원이므로. - Fully Connected layer가 아닌 Convolution 구현임으로 계산 비용이 낮아 실시간 탐지에도 사용될 수 있는 알고리즘이다. 의문인 것은.. 객체의 빨간색 테두리가 격자의 범위를 벗어났는데 bx,by,bh,bw를 어떻게 올바르게 설정할 수 있을까? 9개의 image에 대해서 각각 ImageNet을 수..
2023.09.17 -
29. Convolutional Implementation of Sliding Windows
기존 Sliding window의 문제점은 crop 마다 imageNet을 통한 output을 생성해야 하는 computation cost였다. - 그렇다면 하나씩 실행한 결과 softmax.shape : (4,1) 를 한번에 모아놓는건 안될까? 그럼 계산 한번만 하면 되는데.
2023.09.17 -
28. Object Detection
즉 stride 하면서 빨간박스 내에 차가 있냐 없냐로 기록. - input 이 car image, output이 0 or 1 이였을 때 학습 시 차가 가운데 왔을 때 객체 탐지율이 높으므로 crop을 통해 비슷하게 환경을 조성 sliding and serveral box size cause high computation cost. - every single step run by ConvNet (=deep neural network)
2023.09.16 -
27. Landmark detection
이떄 눈 말고도 얼굴인식, 눈동자인식 등 다양한 부위가 필요할 수 있다. 이때 부위를 랜드마크라고 부른다. - 탐지하고자 하는 랜드마크의 개수가 많을수록 output dimension은 커질 것이다. - 또한 P(c)와 같이 맨 위에는 해당 랜드마크가 존재하는지 안하는지 여부에 대한 output도 함께있다.
2023.09.16 -
26. Object Localization
localization in image well - output : softmax (x,y,h,w) - 차를 표기하는 빨간박스에 대하여 중심점 좌표를 x,y 그리고 박스의 크기를 h,w로 하여 이것을 정답으로 설정할 수 있다. 물론 localization 위치에 대한 정보 bx,by,bw,bh 뿐만아니라 객체의 label 또한 output으로 설정할 수 있다. - label, bx,by,bw,bh 모두 출력으로 하는 network를 구축할 수 있음. 근데.. C1,C2,C3가 모두 0이면 그냥 P(c) = 0인거 아닌가? 왜 굳이 필요할까..? - P(c)에 따라 다른 loss function을 사용.
2023.09.16