使用许多文本查找PDF格式的文本边界

时间:2017-01-22 14:03:45

标签: pdf computer-vision pattern-matching deep-learning text-mining

我有一套(300k)带有多项选择题的PDF(每张PDF约50张)。

这些PDF中的每一个都可能有不同的布局,这使得无法转换为文本(pdftotext)并使用REGEXP进行匹配。

  

问题1

     

字句

     

a)ALTERNATIVE_A

     

b)ALTERNATIVE_B

     

c)ALTERNATIVE_C

     

d)ALTERNATIVE_D

  

Q1)WORDING

     

一个。 ALTERNATIVE_A

     

湾ALTERNATIVE_B

     

℃。 ALTERNATIVE_C

     

d。 ALTERNATIVE_D

     

即ALTERNATIVE_E

另一方面,所有文件都有一个共同点,即它的问题接近其替代方案而远离其他问题。这个特点让我想知道这是否是一项计算机视觉任务。

Questions and alternatives

是否有任何软件可以帮助我完成这项任务?

谢谢!

1 个答案:

答案 0 :(得分:0)

您在获取文本或查找问题时遇到问题吗?

如果是前者,则可以使用OCR(光学字符识别)软件解决问题。具体来说,你应该寻找适用于PDF的一个,例如: http://www.onlineocr.net/

这可以(如果正常工作)为您提供pdf中的文本,您可以使用

进一步解析

如果你的问题是找到问题我会期望NLP技术比视觉技术更好,但如果你真的想用计算机视觉来做,那么我建议你研究一下边界框检测/建议算法。