Skip to content

Latest commit

 

History

History
48 lines (29 loc) · 5 KB

YOLOv3_ENHANCEMENT.md

File metadata and controls

48 lines (29 loc) · 5 KB

YOLOv3增强模型


简介

YOLOv3 是由 Joseph RedmonAli Farhadi 提出的单阶段检测器, 该检测 器与达到同样精度的传统目标检测方法相比,推断速度能达到接近两倍.

PaddleDetection实现版本中使用了 Bag of Freebies for Training Object Detection Neural Networks 中提出的图像增强和label smooth等优化方法,精度优于darknet框架的实现版本,在COCO-2017数据集上,YOLOv3(DarkNet)达到mAP(0.50:0.95)= 38.9的精度,比darknet实现版本的精度(33.0)要高5.9。同时,在推断速度方面,基于Paddle预测库的加速方法,推断速度比darknet高30%。

在此基础上,PaddleDetection对YOLOv3进一步改进,进一步提升了速度和精度,最终在COCO mAP上可以达到43.2。

方法描述

1.将YOLOv3骨架网络更换为ResNet50-VD。ResNet50-VD网络相比原生的DarkNet53网络在速度和精度上都有一定的优势,且相较DarkNet53 ResNet系列更容易扩展,针对自己业务场景可以选择ResNet18、34、101等不同结构作为检测模型的主干网络。

2.引入Deformable Convolution v2(可变形卷积)替代原始卷积操作,Deformable Convolution已经在多个视觉任务中广泛验证过其效果,在Yolo v3增强模型中考虑到速度与精度的平衡,我们仅使用Deformable Convolution替换了主干网络中Stage5部分的3x3卷积。

3.在FPN部分增加DropBlock模块,提高模型泛化能力。Dropout操作如下图(b)中所示是分类网络中广泛使用的增强模型泛化能力的重要手段之一。DropBlock算法相比于Dropout算法,在Drop特征的时候会集中Drop掉某一块区域,更适应于在检测任务中提高网络泛化能力。

image-20200204141739840

4.Yolo v3作为一阶段检测网络,在定位精度上相比Faster RCNN,Cascade RCNN等网络结构有着其天然的劣势,增加IoU Loss分支,可以一定程度上提高BBox定位精度,缩小一阶段和两阶段检测网络的差距。

5.使用Object365数据集训练得到的模型作为coco数据集上的预训练模型,Object365数据集包含约60万张图片以及365种类别,相比coco数据集进行预训练可以进一步提高YOLOv3的精度。

使用方法

模型训练

export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
python tools/train.py -c configs/dcn/yolov3_r50vd_dcn_iouloss_obj365_pretrained_coco.yml

更多模型参数请使用python tools/train.py --help查看,或参考训练、评估及参数说明文档

模型效果

模型 预训练模型 验证集 mAP P4预测速度 下载
YOLOv3 DarkNet DarkNet pretrain 38.9 原生:88.3ms
tensorRT-FP32: 42.5ms
下载链接
YOLOv3 ResNet50_vd DCN ImageNet pretrain 39.1 原生:74.4ms
tensorRT-FP32: 35.2ms
下载链接
YOLOv3 ResNet50_vd DCN Object365 pretrain 42.5 原生:74.4ms
tensorRT-FP32: 35.2ms
下载链接
YOLOv3 ResNet50_vd DCN DropBlock Object365 pretrain 42.8 原生:74.4ms
tensorRT-FP32: 35.2ms
下载链接
YOLOv3 ResNet50_vd DCN DropBlock IoULoss Object365 pretrain 43.2 原生:74.4ms
tensorRT-FP32: 35.2ms
下载链接