本文共 2063 字,大约阅读时间需要 6 分钟。
论文链接:
论文题目表明该算法应用场景为 拥挤人群的人体检测。人体检测的难题:1)拥挤遮挡问题;2)后处理的NMS,很难确定阈值,太大会导致误检多,太小漏检较多,如图1所示;
现象:相比于人体,头部特征更为明显,头和头之间的交叉肯定比人小很多;
思想:将头部检测添加到人体检测中。
2.Region Proposal Networks:RPN网络用于生成region proposals。该层通过softmax判断anchors属于positive或者negative,再利用bounding box regression修正anchors获得精确的proposals。
3.Roi Pooling:该层收集输入的feature maps和proposals,综合这些信息后提取proposal feature maps,送入后续全连接层判定目标类别。
4.Classification && Regression:利用proposal feature maps计算proposal的类别,同时再次bounding box regression获得检测框最终的精确位置。
Double Anchor RPN: 一个anchor同时预测头部位置偏移和人体位置偏移,一个分类得分(前景or背景);
loss:
第一项为分类的交叉熵损失,第二项为头部框的Smooth L1损失,第三项为人体框的Smooth L1损失。正例选取方法: head-body 分支(anchor和头部gound truth iou > 0.7为正例)。
1.问题:因为Double Anchor RPN只考虑了头框groundtruth来选正样本anchor,这样的话该anchor往往和对应的人框groundtruth偏差较大,这就带来了很大的回归难度,因此RPN阶段得到的人框proposal质量并不高。
2.解决方案:训练时并联body-head分支作为训练增强,利用人框选正例anchor,可以保证人框proposal的质量,之后该分支的人框proposal和之前分支的人框proposal通过规则匹配(IOU>0.5),然后质量高的人框proposal就可以替换掉质量低的人框proposal,最终就可以得到一对质量高的头框和人框。
将特征通过RoIAlign变成相同大小,再通过FC层,得到head FC向量特征和Body FC向量特征,对两个FC特征进行融合(具体方式未知)。
2.过滤:head和body框必须同时满足条件才会留下;
实验数据:CrowdHuman(框框之间IOU>0.5的占比比较大)
DA-RCNN: 本文算法,后处理采用普通的NMS
DA-RCNN+J-NMS:本文算法
对比结论:1.本文算法效果较好;2.Joint NMS好于NMS
本文算法会减少误检。结论: 本文的特征融合方式较好。
1) 本文算法通过对每个人的头部和人体同时进行检测,直观有效地解决了人体检测中人群遮挡问题;
2) 对“Crowd”数据最有效;
3) 具有较强的扩展性,扩展检测其他部位。
转载地址:http://umjti.baihongyu.com/