ICDAR2015
https://github.com/HCIILAB/Scene-Text-Detection
ref:最全的曲文检测整理
检测+识别
ones-tage
Character Branch包含三个子分支:文本实例分割、字符检测、字符识别。
-
注释:char-level的注释和word-level的注释。一般数据集不提供char-level的注释,这篇作者是通过合成字符集推理(方法是迭代学习方法) 出char-level的注释,再将字符检测的能力迁移并逐步适应到真实世界的图像中,这使得模型有能力自动识别出真实世界图像的字符。这是一种弱监督学习方法。
-
在文本实例分割的分支中,采用了binary-mask作为监督,指出特征图像的特定区域是文本还是非文本。用一个2维特征图表示。Binary-mask用到了word-level注释。
-
字符检测分支,用一个5维的特征图表示一个字符的bbox。表示方法与EAST的表示方法相同。
-
字符识别分支,用一个68维的概率图表示。68维的具体含义为:
“/research-charnet/datasets/ICDAR2015/test/char_dict.txt”
包含了26个英文字母,10个数字,32个特殊字符。
-
上面三个分支的输出maps中的数值是用原始输入图像的1/4大小的数值表示的。
-
Char-level输出的bbox的置信度都在0.95以上。
Text Detection Branch
1)用来检测单词或者文本行。它提供了强壮的上下文信息用来将检测到的字符组合为文本实例。
-
特别是当遇到多个方向的字符或者弯曲字符时,直接组合非常困难。根据不同的文本实例类型定义文本检测分支如何组合文本实例。
-
多方向文本:修改EAST检测器作为文本检测分支,包含两个分支:文本实例分割和实例级的bbox回归。保留置信度大于0.95的文本。
-
弯曲文本:采用方向区域(编码方向信息支出距离文本边界多远)修改Textfield。这个方向区域用来分离邻近的文本实例。
-
最终结果的产生:一个字符bbox与一个文本实例的bbox有重叠时,最终的bbox包含文本实例和字符(字符对应的label也要归入其中)。
Iterative Character Detection 迭代字符检测机制。
训练时或者重新训练时,real-word dataset在没有字符级annotation的情况下,作者是如何获得的real-word dataset的char-level annotation。
Real-word dataset 没有字符级的bbox注释;
从合成数据集可以轻松获得字符级标注;
先用我们的网络训练合成数据级;
再在real-word 数据集上预测字符级的bbox;
收集正确的字符级bbox,作为进一步训练的输入;
逐步收集real-word中所有正确的字符级bbox;
最后将这些real-word全部正确的字符级bbox以及合成的数据集中的bbox作为所有输入进行训练。
FOTS: Fast Oriented Text Spotting with a Unified Network
结构如图2所示。首先用共享卷积提取特征map。基于FCN的文本检测分支是在特征图上来预测检测边界框。ROIRotate操作从特征map中提取对应检测结果的文本候选特征。文本候选特征再输入到文本识别的RNN编码器和CTC解码器。
4 .DB-ResNet
解决了阈值可微的为题之后,文章将分割算法与DB module组合起来构建了一个快速且鲁棒的文本检测器,这个方法的亮点表现在:
-
1)在几个开源的数据集上对于水平、倾斜、扭曲的文本表现出了更好的检测性能;
-
2)由于不需要繁琐的后处理,直接使用DB module产生适应的阈值使得网络提速很多,并且DB module能够生成更加鲁棒的分割二值图;
-
3)DB module在轻量级的backbone(ResNet-18)也具有很好的性能;
-
4)DB module在做inference的时候可以直接移除,而不会损失性能,因而减少了这部分的时间与资源消耗;
Mask 分支
7. SPCNET
论文
Enze Xie——【AAAI2019】Scene Text Detection with Supervised Pyramid Context Network
亮点
- 基于Mask R-CNN进行修改,加Attention机制,结合global信息
- 利用Mask的分数来进行Re-score
方法概述
针对曲文检测,采用Instance-segmentation思路,基于MaskR-CNN进行修改,将其用在曲线文本检测上。
文章的motivation认为:
已有的Mask R-CNN用在文字检测上有两个问题:
第一,每个ROI单独做box regression等,缺乏不同region间的context信息(例如,盘子经常出现在桌子上);
第二,Mask R-CNN的box针对水平文字,不利于倾斜文本,因为背景像素点占了很大比例(还有,比如用box后两行text的box会有较大覆盖)。
作者提出的解决办法是:
针对问题一,提出一个Text Context Module,加入SSTD的Attention机制并把global信息和local信息进行fusion;
针对问题二,提出一种Re-score Mechanism,利用Mask的score和box的score进行平均来解决倾斜文本的分类分数错误问题。
整个检测流程是:用Mask-RCNN+Attention网络进行inference,后处理用Mask的分数Re-socre,利用得到的mask来得到最后的检测结果(minAreaRect)。
整个检测方法的流程是:使用FPN网络得到多个shirink程度不一样的segmentation map,再把多个map进行逐步扩展得到最终的map。
论文
Zhida Huang——【2018】Mask R-CNN with Pyramid Attention Network for Scene Text Detection
亮点
- 基于Mask RCNN进行修改,可做四边形回归
- 首次将PAN用在文字检测上
方法概述
针对曲文检测,采用Instance-segmentation思路,基于MaskR-CN0N进行修改,将其用在曲线文本检测上。
改进的点在于两个:
第一, 在backbone网络中加入PAN(Pyramid Attention Network,由Feature Pyramid Attention和Global Attention Up-Sample两个部分组成),使得特征对scale大小鲁棒性更强
第二,将Mask-RCNN的regression分支由box回归(4个值)改为polygon回归(8个值),使其可以用做四边形回归(但还是不能用来做曲文的回归,曲文用的是mask的多边形框
第三,参照ION的思想,提出Skip-RoiAlign在多层进行融合