识别考试中的问题(文本识别)

时间:2014-07-19 14:41:25

标签: machine-learning text-mining image-recognition text-recognition

我在pdf中有成千上万的考试,我想将它的问题提取为标准格式(JSON,YML或XML)。

他们是多种选择:

  

问题1

     

谁是第一个在月球上行走的人?

     

a)Yuri Gagarin

     

b)Ellen Ripley

     c)Neil Armstrong

     d)Shepard

     

问题2

     

太阳系中有多少个行星?

     

a)10

     

b)12

     

c)14

     

d)15

     

(...)

在JSON中:

{
  "number": 1,
  "wording": "Who as the first man to walk on the moon",
  "alternatives": {
    "a": Yuri Gagarin
    "b": Ellen Ripley
    "c": Neil Armstrong
    "d": Shepard
  }
}

需要注意的是,由于这些考试是由不同的老师制作的,所以他们可能略有不同。这意味着即使提取到纯文本,我也无法使用正则表达式进行匹配。 (我已经尝试过,组合(措辞结构/替代结构)很大)

例如:

  

“问题X(...)”。

     

“问题(X)(...)”。

     

“问题X - (...)”。

     

“X)(...)”。

     

“X-(...)”。

替代方案也可能会发生变化:

  

a)(...)

     

一个。 (...)

     

a-(...)

     

1)(...)

我想我需要某种机器学习工具,以“教”程序什么是问题并让它找到。

作为替代方案,由于问题(印刷版)在物理上彼此遥远,我认为我可以将这些PDF转换为图像并使用某种图像识别。

可行吗?是否有用于识别这些问题的工具(包,库,算法)?

1 个答案:

答案 0 :(得分:0)

您的问题没有直接的机器学习解决方案。如果您的PDF是1000,格式是10秒,那么最好为每种格式编写一个字符串解析器。如果你走机器学习的道路,找到解决方案的时间可能会更长。 Python应该有所帮助。