mnistで各画像のピクセルを特徴量にして学習するってのは理解しました
同様にして犬だの猫だのの画像を大量に突っ込めば判定できるってのもイメージできる
でも画像内部の物体検出して四角で囲ってラベルつけるってのはあれは一体どういう仕組みになるんです?
対象領域の検出方法とか、大きさがバラバラの範囲をどう判別するのかとか、さっぱりわからない
そもそもどういうモデルを作ってるのか、何を特徴量にして判定してるのか、haarlikeだのrcnnだのの解説読んでもイメージ全くつかめないんですが
分かりやすく解説してるところとかないですかね