如何使用递归卷积神经网络(RCNN)进行OCR错字校正?

Wang Clem已经给出了参考。

通过将其分成区域,大多数RCNN似乎都用于图像丰富特征层次结构中的标签对象,以进行准确的对象检测和语义分割( 另请参见下面的其他引用该论文的最新文章的链接 ),但是一种可能性是

  • 使用一个模型,该模型使用CNN将OCR文本转换为表示形式,然后使用经过训练的语言模型建立seq-to-seq模型,以最适合潜在错误文本输入的词/短语。
  • 因此,此seq-to-seq模型的输入是OCR文本的表示形式,而输出是经过校正的文本序列

另一种解决方案是使用从CNN输出的文本,并使用Fasttext表示每个单词的单词替代词,然后使用经过RNN训练的语言模型(具有最低熵的拾取替代词)评估每个替代词。

这些方法可能会比基于OCR输出的基于标准编辑距离的校正效果更好-因为它们考虑了要校正的句子上下文。

以上论文的引文结果

  • 建立语言模型。
  • 给定输入字符串(OCR步骤的输出),找到最小的编辑次数以获得较高的概率字符串–看起来像简单的DP。
  • 或执行以下操作:如何编写拼写校正器

对于这类问题,我观察到简单的n-gram字符语言模型已经足够了。

Hinton教授在Coursera上的神经网络课程的第8讲给出了一个例子,说明了如何做到这一点:

https://www.coursera.org/learn/n…

Ilya Sutskever尤其成功地使用了此功能。 在这里描述:

https://papers.nips.cc/paper/534…

http://jmlr.org/proceedings/pape…

https://xa.yimg.com/kq/groups/14…

他的博士学位论文更加详细:

http://www.cs.utoronto.ca/~ilya/…

希望这里有足够的信息供您复制该技术。