应用错误收集

时间：2017-01-22 14:03:45

标签： pdf computer-vision pattern-matching deep-learning text-mining

我有一套（300k）带有多项选择题的PDF（每张PDF约50张）。

这些PDF中的每一个都可能有不同的布局，这使得无法转换为文本（pdftotext）并使用REGEXP进行匹配。

问题1

字句

a）ALTERNATIVE_A

b）ALTERNATIVE_B

c）ALTERNATIVE_C

d）ALTERNATIVE_D

Q1）WORDING

一个。 ALTERNATIVE_A

湾ALTERNATIVE_B

℃。 ALTERNATIVE_C

d。 ALTERNATIVE_D

即ALTERNATIVE_E

另一方面，所有文件都有一个共同点，即它的问题接近其替代方案而远离其他问题。这个特点让我想知道这是否是一项计算机视觉任务。

是否有任何软件可以帮助我完成这项任务？

谢谢！

答案 0 :(得分：0)

您在获取文本或查找问题时遇到问题吗？

如果是前者，则可以使用OCR（光学字符识别）软件解决问题。具体来说，你应该寻找适用于PDF的一个，例如： http://www.onlineocr.net/

这可以（如果正常工作）为您提供pdf中的文本，您可以使用

进一步解析

如果你的问题是找到问题我会期望NLP技术比视觉技术更好，但如果你真的想用计算机视觉来做，那么我建议你研究一下边界框检测/建议算法。