fast rcnn
1, 原理
2, 改进点
3, loss
原理
如下图所示:
改进点
1, 实现大部分end-to-end训练(提proposal阶段除外): 所有的特征都暂存在显存中,就不需要额外的磁盘空间
2,提出了一个RoI层,算是SPP的变种,SPP是pooling成多个固定尺度,RoI只pooling到单个固定的尺度
3,ROI
loss
如下图:
cls_score层用于分类,输出K+1维数组p,表示属于K类和背景的概率。 bbox_prdict层用于调整候选区域位置,输出4 * K维数组t,表示分别属于K类时,应该平移缩放的参数。
其他见
https://blog.csdn.net/shenxiaolu1984/article/details/51036677
代价函数部分
参考
https://zhuanlan.zhihu.com/p/24780395
https://blog.csdn.net/shenxiaolu1984/article/details/51036677
Girshick, Ross. “Fast r-cnn.” Proceedings of the IEEE International Conference on Computer Vision. 2015.