我有一套(300k)带有多项选择题的PDF(每张PDF约50张)。
这些PDF中的每一个都可能有不同的布局,这使得无法转换为文本(pdftotext)并使用REGEXP进行匹配。
问题1
字句
a)ALTERNATIVE_A
b)ALTERNATIVE_B
c)ALTERNATIVE_C
d)ALTERNATIVE_D
Q1)WORDING
一个。 ALTERNATIVE_A
湾ALTERNATIVE_B
℃。 ALTERNATIVE_C
d。 ALTERNATIVE_D
即ALTERNATIVE_E
另一方面,所有文件都有一个共同点,即它的问题接近其替代方案而远离其他问题。这个特点让我想知道这是否是一项计算机视觉任务。
是否有任何软件可以帮助我完成这项任务?
谢谢!
答案 0 :(得分:0)
您在获取文本或查找问题时遇到问题吗?
如果是前者,则可以使用OCR(光学字符识别)软件解决问题。具体来说,你应该寻找适用于PDF的一个,例如: http://www.onlineocr.net/
这可以(如果正常工作)为您提供pdf中的文本,您可以使用
进一步解析如果你的问题是找到问题我会期望NLP技术比视觉技术更好,但如果你真的想用计算机视觉来做,那么我建议你研究一下边界框检测/建议算法。