我在pdf中有成千上万的考试,我想将它的问题提取为标准格式(JSON,YML或XML)。
他们是多种选择:
问题1
谁是第一个在月球上行走的人?
a)Yuri Gagarin
b)Ellen Ripley
c)Neil Armstrong d)Shepard问题2
太阳系中有多少个行星?
a)10
b)12
c)14
d)15
(...)
在JSON中:
{
"number": 1,
"wording": "Who as the first man to walk on the moon",
"alternatives": {
"a": Yuri Gagarin
"b": Ellen Ripley
"c": Neil Armstrong
"d": Shepard
}
}
需要注意的是,由于这些考试是由不同的老师制作的,所以他们可能略有不同。这意味着即使提取到纯文本,我也无法使用正则表达式进行匹配。 (我已经尝试过,组合(措辞结构/替代结构)很大)
例如:
“问题X(...)”。
“问题(X)(...)”。
“问题X - (...)”。
“X)(...)”。
“X-(...)”。
替代方案也可能会发生变化:
a)(...)
一个。 (...)
a-(...)
1)(...)
我想我需要某种机器学习工具,以“教”程序什么是问题并让它找到。
作为替代方案,由于问题(印刷版)在物理上彼此遥远,我认为我可以将这些PDF转换为图像并使用某种图像识别。
可行吗?是否有用于识别这些问题的工具(包,库,算法)?
答案 0 :(得分:0)
您的问题没有直接的机器学习解决方案。如果您的PDF是1000,格式是10秒,那么最好为每种格式编写一个字符串解析器。如果你走机器学习的道路,找到解决方案的时间可能会更长。 Python应该有所帮助。