无法改善文档图像的遮罩RCNN模型?

时间:2019-11-03 10:56:23

标签: python keras deep-learning object-detection

我正在训练一个模型,以便从我的简历中提取所有必要的字段,为此我使用遮罩rcnn来检测图像中的字段。我已经训练了我的遮罩RCNN模型以提取49个字段的1000个训练样本。我无法提高准确性。如何改进模型?是否有任何预训练的权重可能会有所帮助?

enter image description here

3 个答案:

答案 0 :(得分:3)

好像您想进行文本分类/处理一样,您需要从文本中提取细节,但是您正在应用对象检测算法。我相信您需要使用OCR提取文本(如果您将cv作为图像)并使用文本分类模型。查看以下链接,了解有关文本分类的更多信息-

https://medium.com/@armandj.olivares/a-basic-nlp-tutorial-for-news-multiclass-categorization-82afa6d46aa5

https://www.tensorflow.org/tutorials/tensorflow_text/intro

答案 1 :(得分:2)

您可以通过两种不同的方式解决问题: 第1步-OCR似乎是获取数据的最直接方法。但是增加图像大小,从而增加分辨率,否则可能会丢失数据。 步骤2-存储每个OCRed单词的坐标。在这种情况下,这是有价值的信息。单词如何排列具有重要意义。 步骤3-此时,您可以尝试使用基本的位置聚类对单词进行分组。但是,这很容易在相关文本的基于列和基于行的分发中失败。
步骤4-查看您是否可以识别这些集群属于49个标签中的哪个。 看一下隐马尔可夫模型的文本分类,Baum-Welch算法。即首先使用基本模型。

或 上面的代码忽略了固有的分类机会,即正确格式化的简历的图像。

第1步-训练模型以将图像分为没有OCR的部分。一个好的模型不应该分解句子,表格等。这种方法可以利用分隔线等。由于您还没有OCR,所以还有机会减小图像的大小。 第2步-OCR图像部分,并尝试与上述相似进行分类。

答案 2 :(得分:0)

另一种选择是使用神经网络,例如-PixelLink:通过实例分割检测场景文本

https://arxiv.org/pdf/1801.01315.pdf