rcnn
0, 常用概念
1, 原理
2, 意义
3, 训练方法
常用概念
1, Bounding Box(bbox)
bbox是包含物体的最小矩形,该物体应在最小矩形内部, 物体检测中关于物体位置的信息输出是一组(x,y,w,h)数据, 其中x,y代表着bbox的左上角(或者其他固定点,可自定义),对应的w,h表示bbox的宽和高.一组(x,y,w,h)可以唯一的确定一个定位框。
2, Intersection over Union(IoU)
对于两个区域R和R′,则两个区域的重叠程度overlap计算如下:
O(R,R′)= | R∩R′ | / | R∪R′ |
如下图:
3, 非极大值抑制(Non-Maximum Suppression又称NMS)
非极大值抑制,简称为NMS算法,英文为Non-Maximum Suppression。其思想是搜素局部最大值,抑制极大值。NMS算法在不同应用中的具体实现不太一样,但思想是一样的。
使用方法:
前提:目标边界框列表及其对应的置信度得分列表,设定阈值,阈值用来删除重叠较大的边界框。
IoU:intersection-over-union,即两个边界框的交集部分除以它们的并集。
非极大值抑制的流程如下:
根据置信度得分进行排序
选择置信度最高的比边界框添加到最终输出列表中,将其从边界框列表中删除
计算所有边界框的面积
计算置信度最高的边界框与其它候选框的IoU。
删除IoU大于阈值的边界框
重复上述过程,直至边界框列表为空
原理
如下图:
借鉴了滑动窗口思想,R-CNN 采用对区域进行识别的方案。
具体是:
1, 给定一张输入图片,从图片中提取 2000 个类别独立的候选区域。
2, 对于每个区域利用 CNN 抽取一个固定长度的特征向量。
3, 再对每个区域利用 SVM 进行目标分类。
如下图:
意义
1, 在 Pascal VOC 2012 的数据集上,能够将目标检测的验证指标 mAP 提升到 53.3%,这相对于之前最好的结果提升了整整 30%.
2, 这一方法证明了可以将神经网络应用在自底向上的候选区域,这样就可以进行目标分类和目标定位。
3, 这一方法也带来了一个观点,那就是当你缺乏大量的标注数据时,比较好的可行的手段是,进行神经网络的迁移学习,采用在其他大型数据集训练过后的神经网络, 然后在小规模特定的数据集中进行 fine-tune 微调。
训练方法
具体查看
https://www.jianshu.com/p/5056e6143ed5
训练方法部分
参考
https://blog.csdn.net/briblue/article/details/82012575
https://arxiv.org/abs/1311.2524
https://www.jianshu.com/p/5056e6143ed5
https://www.jianshu.com/p/d452b5615850