Question

我在pdf中有成千上万的考试，我想将它的问题提取为标准格式（JSON，YML或XML）。

他们是多种选择：

问题1

谁是第一个在月球上行走的人？

a）Yuri Gagarin

b）Ellen Ripley
     c）Neil Armstrong
     d）Shepard

问题2

太阳系中有多少个行星？

a）10

b）12

c）14

d）15

（...）

在JSON中：

{
  "number": 1,
  "wording": "Who as the first man to walk on the moon",
  "alternatives": {
    "a": Yuri Gagarin
    "b": Ellen Ripley
    "c": Neil Armstrong
    "d": Shepard
  }
}

需要注意的是，由于这些考试是由不同的老师制作的，所以他们可能略有不同。这意味着即使提取到纯文本，我也无法使用正则表达式进行匹配。（我已经尝试过，组合（措辞结构/替代结构）很大）

例如：

“问题X（...）”。

“问题（X）（...）”。

“问题X - （...）”。

“X）（...）”。

“X-（...）”。

替代方案也可能会发生变化：

a）（...）

一个。（...）

a-（...）

1）（...）

我想我需要某种机器学习工具，以“教”程序什么是问题并让它找到。

作为替代方案，由于问题（印刷版）在物理上彼此遥远，我认为我可以将这些PDF转换为图像并使用某种图像识别。

可行吗？是否有用于识别这些问题的工具（包，库，算法）？

Answer 1

您的问题没有直接的机器学习解决方案。如果您的PDF是1000，格式是10秒，那么最好为每种格式编写一个字符串解析器。如果你走机器学习的道路，找到解决方案的时间可能会更长。 Python应该有所帮助。

识别考试中的问题（文本识别）

1 个答案: