Skip to content

Latest commit

 

History

History
208 lines (118 loc) · 17.4 KB

文字识别.md

File metadata and controls

208 lines (118 loc) · 17.4 KB
文字检测与识别

ICDAR2015

RANK MODEL PRECISION RECALL F-MEASURE H-MEAN PAPER YEAR
1 CharNet H-88 (multi-scale) 92.65 90.47 91.55 Convolutional Character Networks 2019
2 SBD 92.1 88.2 90.1 Exploring the Capacity of an Orderless Box Discretization Network for Multi-orientation Scene Text Detection 2019
3 FOTS MS 91.85 87.92 89.84 FOTS: Fast Oriented Text Spotting with a Unified Network 2018
4 DB-ResNet-50 (1152) 91.8 83.2 87.3 Real-time Scene Text Detection with Differentiable Binarization 2019
5 Mask TextSpotter 91.6 81 86 Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes 2018
6 CharNet H-57 (multi-scale) 91.43 88.74 90.06 Convolutional Character Networks 2019
7 PMTD 91.3 87.43 89.33 Pyramid Mask Text Detector 2019
8 CharNet H-50 (single-scale) 91.15 88.3 89.7 Convolutional Character Networks 2019
9 FOTS 91 85.17 87.99 FOTS: Fast Oriented Text Spotting with a Unified Network 2018
10 CharNet H-50 (multi-scale) 90.9 89.44 90.16 Convolutional Character Networks 2019
11 PAN 90.8 81.5 85.9 Mask R-CNN with Pyramid Attention Network for Scene Text Detection 2018
12 GNNets 90.41 86.71 88.52 Geometry Normalization Networks for Accurate Scene Text Detection 2019
13 CharNet H-88 (single-scale) 89.99 91.98 90.97 Convolutional Character Networks 2019
14 CRAFT 89.8 84.3 86.9 Character Region Awareness for Text Detection 2019
15 Corner Localization (multi-scale) 89.5 79.7 84.3 Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation 2018
16 CharNet H-57 (single-scale) 88.88 90.45 89.66 Convolutional Character Networks 2019
17 SPCNET 88.7 85.8 87.2 Scene Text Detection with Supervised Pyramid Context Network 2018
18 PSENet-1s 88.7 85.5 87.1 Shape Robust Text Detection with Progressive Scale Expansion Network 2018
19 Corner-based Region Proposals 88.7 80.7 84.5 Detecting Multi-Oriented Text with Corner-based Region Proposals 2018
20 FTSN + MNMS 88.6 80 84.1 Fused Text Segmentation Networks for Multi-oriented Scene Text Detection 2017
21 Quad_MS 87.8 78.5 82.9 TextBoxes++: A Single-Shot Oriented Scene Text Detector 2018
22 PSENet-1s 86.9 84.5 85.7 Shape Robust Text Detection with Progressive Scale Expansion Network 2019
23 SLPR 85.5 83.6 84.5 Sliding Line Point Regression for Shape Robust Scene Text Detection 2018
24 PixelLink+VGG16 2s 85.5 82 83.7 PixelLink: Detecting Scene Text via Instance Segmentation 2018
25 TextSnake 84.9 80.4 82.6 TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes 2018
26 PAN 84 81.9 82.9 Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network 2019
27 EAST + PVANET2x RBOX (single-scale) 83.6 73.5 78.2 EAST: An Efficient and Accurate Scene Text Detector 2017
28 EAST + PVANET2x RBOX (multi-scale) 83.3 78.3 80.7 EAST: An Efficient and Accurate Scene Text Detector 2017
29 SSTD 80 73 77 Single Shot Text Detector with Regional Attention 2017
30 WordSup (VGG16-synth-icdar) 79.3 77.0 78.2 WordSup: Exploiting Word Annotations for Character based Text Detection 2017
31 SegLink 73.1 76.8 75 Detecting Oriented Text in Natural Images by Linking Segments 2017
32 MCLAB_FCN 70.8 43.0 53.6 Multi-Oriented Text Detection with Fully Convolutional Networks 2016

https://github.com/HCIILAB/Scene-Text-Detection

ref:最全的曲文检测整理

1. CharNet

检测+识别

ones-tage

在这里插入图片描述

Character Branch包含三个子分支:文本实例分割、字符检测、字符识别。

  1. 注释:char-level的注释和word-level的注释。一般数据集不提供char-level的注释,这篇作者是通过合成字符集推理(方法是迭代学习方法) 出char-level的注释,再将字符检测的能力迁移并逐步适应到真实世界的图像中,这使得模型有能力自动识别出真实世界图像的字符。这是一种弱监督学习方法。

  2. 在文本实例分割的分支中,采用了binary-mask作为监督,指出特征图像的特定区域是文本还是非文本。用一个2维特征图表示。Binary-mask用到了word-level注释。

  3. 字符检测分支,用一个5维的特征图表示一个字符的bbox。表示方法与EAST的表示方法相同。

  4. 字符识别分支,用一个68维的概率图表示。68维的具体含义为:

“/research-charnet/datasets/ICDAR2015/test/char_dict.txt”

包含了26个英文字母,10个数字,32个特殊字符。

  1. 上面三个分支的输出maps中的数值是用原始输入图像的1/4大小的数值表示的。

  2. Char-level输出的bbox的置信度都在0.95以上。

Text Detection Branch

1)用来检测单词或者文本行。它提供了强壮的上下文信息用来将检测到的字符组合为文本实例。

  1. 特别是当遇到多个方向的字符或者弯曲字符时,直接组合非常困难。根据不同的文本实例类型定义文本检测分支如何组合文本实例。

  2. 多方向文本:修改EAST检测器作为文本检测分支,包含两个分支:文本实例分割和实例级的bbox回归。保留置信度大于0.95的文本。

  3. 弯曲文本:采用方向区域(编码方向信息支出距离文本边界多远)修改Textfield。这个方向区域用来分离邻近的文本实例。

  4. 最终结果的产生:一个字符bbox与一个文本实例的bbox有重叠时,最终的bbox包含文本实例和字符(字符对应的label也要归入其中)。

Iterative Character Detection 迭代字符检测机制。

训练时或者重新训练时,real-word dataset在没有字符级annotation的情况下,作者是如何获得的real-word dataset的char-level annotation。

Real-word dataset 没有字符级的bbox注释;

从合成数据集可以轻松获得字符级标注;

先用我们的网络训练合成数据级;

再在real-word 数据集上预测字符级的bbox;

收集正确的字符级bbox,作为进一步训练的输入;

逐步收集real-word中所有正确的字符级bbox;

最后将这些real-word全部正确的字符级bbox以及合成的数据集中的bbox作为所有输入进行训练。

2. FOTS

FOTS: Fast Oriented Text Spotting with a Unified Network

e16cf2b4ea8b81b440ff3ed3c507b305.png

结构如图2所示。首先用共享卷积提取特征map。基于FCN的文本检测分支是在特征图上来预测检测边界框。ROIRotate操作从特征map中提取对应检测结果的文本候选特征。文本候选特征再输入到文本识别的RNN编码器和CTC解码器。

3. EAST

img

解决了阈值可微的为题之后,文章将分割算法与DB module组合起来构建了一个快速且鲁棒的文本检测器,这个方法的亮点表现在:

  • 1)在几个开源的数据集上对于水平、倾斜、扭曲的文本表现出了更好的检测性能;

  • 2)由于不需要繁琐的后处理,直接使用DB module产生适应的阈值使得网络提速很多,并且DB module能够生成更加鲁棒的分割二值图;

  • 3)DB module在轻量级的backbone(ResNet-18)也具有很好的性能;

  • 4)DB module在做inference的时候可以直接移除,而不会损失性能,因而减少了这部分的时间与资源消耗;

img

img

Mask 分支

img

6. PMTD

img

img

论文

Enze Xie——【AAAI2019】Scene Text Detection with Supervised Pyramid Context Network

亮点

  • 基于Mask R-CNN进行修改,加Attention机制,结合global信息
  • 利用Mask的分数来进行Re-score

方法概述

针对曲文检测,采用Instance-segmentation思路,基于MaskR-CNN进行修改,将其用在曲线文本检测上。

文章的motivation认为:

已有的Mask R-CNN用在文字检测上有两个问题:

第一,每个ROI单独做box regression等,缺乏不同region间的context信息(例如,盘子经常出现在桌子上);

第二,Mask R-CNN的box针对水平文字,不利于倾斜文本,因为背景像素点占了很大比例(还有,比如用box后两行text的box会有较大覆盖)。

作者提出的解决办法是:

针对问题一,提出一个Text Context Module,加入SSTD的Attention机制并把global信息和local信息进行fusion;

针对问题二,提出一种Re-score Mechanism,利用Mask的score和box的score进行平均来解决倾斜文本的分类分数错误问题。

整个检测流程是:用Mask-RCNN+Attention网络进行inference,后处理用Mask的分数Re-socre,利用得到的mask来得到最后的检测结果(minAreaRect)。

8.PSENet

img

整个检测方法的流程是:使用FPN网络得到多个shirink程度不一样的segmentation map,再把多个map进行逐步扩展得到最终的map。

9. Mask-PAN

论文

Zhida Huang——【2018】Mask R-CNN with Pyramid Attention Network for Scene Text Detection

亮点

  • 基于Mask RCNN进行修改,可做四边形回归
  • 首次将PAN用在文字检测上

方法概述

针对曲文检测,采用Instance-segmentation思路,基于MaskR-CN0N进行修改,将其用在曲线文本检测上。

改进的点在于两个:

第一, 在backbone网络中加入PAN(Pyramid Attention Network,由Feature Pyramid Attention和Global Attention Up-Sample两个部分组成),使得特征对scale大小鲁棒性更强

第二,将Mask-RCNN的regression分支由box回归(4个值)改为polygon回归(8个值),使其可以用做四边形回归(但还是不能用来做曲文的回归,曲文用的是mask的多边形框

第三,参照ION的思想,提出Skip-RoiAlign在多层进行融合

img