文字检测与识别

ICDAR2015

RANK	MODEL	PRECISION	RECALL	F-MEASURE	H-MEAN	PAPER	YEAR
1	CharNet H-88 (multi-scale)	92.65	90.47	91.55		Convolutional Character Networks	2019
2	SBD	92.1	88.2	90.1		Exploring the Capacity of an Orderless Box Discretization Network for Multi-orientation Scene Text Detection	2019
3	FOTS MS	91.85	87.92	89.84		FOTS: Fast Oriented Text Spotting with a Unified Network	2018
4	DB-ResNet-50 (1152)	91.8	83.2	87.3		Real-time Scene Text Detection with Differentiable Binarization	2019
5	Mask TextSpotter	91.6	81	86		Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes	2018
6	CharNet H-57 (multi-scale)	91.43	88.74	90.06		Convolutional Character Networks	2019
7	PMTD	91.3	87.43	89.33		Pyramid Mask Text Detector	2019
8	CharNet H-50 (single-scale)	91.15	88.3	89.7		Convolutional Character Networks	2019
9	FOTS	91	85.17	87.99		FOTS: Fast Oriented Text Spotting with a Unified Network	2018
10	CharNet H-50 (multi-scale)	90.9	89.44	90.16		Convolutional Character Networks	2019
11	PAN	90.8	81.5	85.9		Mask R-CNN with Pyramid Attention Network for Scene Text Detection	2018
12	GNNets	90.41	86.71	88.52		Geometry Normalization Networks for Accurate Scene Text Detection	2019
13	CharNet H-88 (single-scale)	89.99	91.98	90.97		Convolutional Character Networks	2019
14	CRAFT	89.8	84.3		86.9	Character Region Awareness for Text Detection	2019
15	Corner Localization (multi-scale)	89.5	79.7	84.3		Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation	2018
16	CharNet H-57 (single-scale)	88.88	90.45	89.66		Convolutional Character Networks	2019
17	SPCNET	88.7	85.8	87.2		Scene Text Detection with Supervised Pyramid Context Network	2018
18	PSENet-1s	88.7	85.5	87.1		Shape Robust Text Detection with Progressive Scale Expansion Network	2018
19	Corner-based Region Proposals	88.7	80.7	84.5		Detecting Multi-Oriented Text with Corner-based Region Proposals	2018
20	FTSN + MNMS	88.6	80		84.1	Fused Text Segmentation Networks for Multi-oriented Scene Text Detection	2017
21	Quad_MS	87.8	78.5	82.9		TextBoxes++: A Single-Shot Oriented Scene Text Detector	2018
22	PSENet-1s	86.9	84.5	85.7		Shape Robust Text Detection with Progressive Scale Expansion Network	2019
23	SLPR	85.5	83.6		84.5	Sliding Line Point Regression for Shape Robust Scene Text Detection	2018
24	PixelLink+VGG16 2s	85.5	82	83.7		PixelLink: Detecting Scene Text via Instance Segmentation	2018
25	TextSnake	84.9	80.4	82.6		TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes	2018
26	PAN	84	81.9	82.9		Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network	2019
27	EAST + PVANET2x RBOX (single-scale)	83.6	73.5	78.2		EAST: An Efficient and Accurate Scene Text Detector	2017
28	EAST + PVANET2x RBOX (multi-scale)	83.3	78.3	80.7		EAST: An Efficient and Accurate Scene Text Detector	2017
29	SSTD	80	73	77		Single Shot Text Detector with Regional Attention	2017
30	WordSup (VGG16-synth-icdar)	79.3	77.0	78.2		WordSup: Exploiting Word Annotations for Character based Text Detection	2017
31	SegLink	73.1	76.8	75		Detecting Oriented Text in Natural Images by Linking Segments	2017
32	MCLAB_FCN	70.8	43.0	53.6		Multi-Oriented Text Detection with Fully Convolutional Networks	2016

https://github.com/HCIILAB/Scene-Text-Detection

ref:最全的曲文检测整理

1. CharNet

检测+识别

ones-tage

Character Branch包含三个子分支：文本实例分割、字符检测、字符识别。

注释：char-level的注释和word-level的注释。一般数据集不提供char-level的注释，这篇作者是通过合成字符集推理（方法是迭代学习方法) 出char-level的注释，再将字符检测的能力迁移并逐步适应到真实世界的图像中，这使得模型有能力自动识别出真实世界图像的字符。这是一种弱监督学习方法。
在文本实例分割的分支中，采用了binary-mask作为监督，指出特征图像的特定区域是文本还是非文本。用一个2维特征图表示。Binary-mask用到了word-level注释。
字符检测分支，用一个5维的特征图表示一个字符的bbox。表示方法与EAST的表示方法相同。
字符识别分支，用一个68维的概率图表示。68维的具体含义为:

“/research-charnet/datasets/ICDAR2015/test/char_dict.txt”

包含了26个英文字母，10个数字，32个特殊字符。

上面三个分支的输出maps中的数值是用原始输入图像的1/4大小的数值表示的。
Char-level输出的bbox的置信度都在0.95以上。

Text Detection Branch

1)用来检测单词或者文本行。它提供了强壮的上下文信息用来将检测到的字符组合为文本实例。

特别是当遇到多个方向的字符或者弯曲字符时，直接组合非常困难。根据不同的文本实例类型定义文本检测分支如何组合文本实例。
多方向文本：修改EAST检测器作为文本检测分支，包含两个分支：文本实例分割和实例级的bbox回归。保留置信度大于0.95的文本。
弯曲文本：采用方向区域（编码方向信息支出距离文本边界多远）修改Textfield。这个方向区域用来分离邻近的文本实例。
最终结果的产生：一个字符bbox与一个文本实例的bbox有重叠时，最终的bbox包含文本实例和字符（字符对应的label也要归入其中）。

Iterative Character Detection 迭代字符检测机制。

训练时或者重新训练时，real-word dataset在没有字符级annotation的情况下，作者是如何获得的real-word dataset的char-level annotation。

Real-word dataset 没有字符级的bbox注释；

从合成数据集可以轻松获得字符级标注；

先用我们的网络训练合成数据级；

再在real-word 数据集上预测字符级的bbox；

收集正确的字符级bbox，作为进一步训练的输入；

逐步收集real-word中所有正确的字符级bbox；

最后将这些real-word全部正确的字符级bbox以及合成的数据集中的bbox作为所有输入进行训练。

2. FOTS

FOTS: Fast Oriented Text Spotting with a Unified Network

结构如图2所示。首先用共享卷积提取特征map。基于FCN的文本检测分支是在特征图上来预测检测边界框。ROIRotate操作从特征map中提取对应检测结果的文本候选特征。文本候选特征再输入到文本识别的RNN编码器和CTC解码器。

3. EAST

4 .DB-ResNet

解决了阈值可微的为题之后，文章将分割算法与DB module组合起来构建了一个快速且鲁棒的文本检测器，这个方法的亮点表现在：

1）在几个开源的数据集上对于水平、倾斜、扭曲的文本表现出了更好的检测性能；
2）由于不需要繁琐的后处理，直接使用DB module产生适应的阈值使得网络提速很多，并且DB module能够生成更加鲁棒的分割二值图；
3）DB module在轻量级的backbone（ResNet-18）也具有很好的性能；
4）DB module在做inference的时候可以直接移除，而不会损失性能，因而减少了这部分的时间与资源消耗；

5. Mask TextSpotter

Mask 分支

6. PMTD

7. SPCNET

论文

Enze Xie——【AAAI2019】Scene Text Detection with Supervised Pyramid Context Network

亮点

基于Mask R-CNN进行修改，加Attention机制，结合global信息
利用Mask的分数来进行Re-score

方法概述

针对曲文检测，采用Instance-segmentation思路，基于MaskR-CNN进行修改，将其用在曲线文本检测上。

文章的motivation认为：

已有的Mask R-CNN用在文字检测上有两个问题：

第一，每个ROI单独做box regression等，缺乏不同region间的context信息（例如，盘子经常出现在桌子上）；

第二，Mask R-CNN的box针对水平文字，不利于倾斜文本，因为背景像素点占了很大比例（还有，比如用box后两行text的box会有较大覆盖）。

作者提出的解决办法是：

针对问题一，提出一个Text Context Module，加入SSTD的Attention机制并把global信息和local信息进行fusion；

针对问题二，提出一种Re-score Mechanism，利用Mask的score和box的score进行平均来解决倾斜文本的分类分数错误问题。

整个检测流程是：用Mask-RCNN+Attention网络进行inference，后处理用Mask的分数Re-socre，利用得到的mask来得到最后的检测结果（minAreaRect）。

8.PSENet

整个检测方法的流程是：使用FPN网络得到多个shirink程度不一样的segmentation map，再把多个map进行逐步扩展得到最终的map。

9. Mask-PAN

论文

Zhida Huang——【2018】Mask R-CNN with Pyramid Attention Network for Scene Text Detection

亮点

基于Mask RCNN进行修改，可做四边形回归
首次将PAN用在文字检测上

方法概述

针对曲文检测，采用Instance-segmentation思路，基于MaskR-CN0N进行修改，将其用在曲线文本检测上。

改进的点在于两个：

第一，在backbone网络中加入PAN（Pyramid Attention Network，由Feature Pyramid Attention和Global Attention Up-Sample两个部分组成），使得特征对scale大小鲁棒性更强

第二，将Mask-RCNN的regression分支由box回归（4个值）改为polygon回归（8个值），使其可以用做四边形回归（但还是不能用来做曲文的回归，曲文用的是mask的多边形框

第三，参照ION的思想，提出Skip-RoiAlign在多层进行融合

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

文字识别.md

文字识别.md

1. CharNet

2. FOTS

3. EAST

4 .DB-ResNet

5. Mask TextSpotter

6. PMTD

7. SPCNET

8.PSENet

9. Mask-PAN

Files

文字识别.md

Latest commit

History

文字识别.md

File metadata and controls

1. CharNet

2. FOTS

3. EAST

4 .DB-ResNet

5. Mask TextSpotter

6. PMTD

7. SPCNET

8.PSENet

9. Mask-PAN