我正在处理已转换为文本的PDF。问题?有时,由于PDF格式化和/或PDF到文本的转换,句子会被分割。
所以我正在寻找有助于“重新组合”分裂的句子的工具。页眉或页脚通常是罪魁祸首。其他元素,如数字和图表,也可以发挥作用,但它们现在不是我主要关注的问题。
可以通过以下几种方式解决这个问题:
在进行NLP句子检测之前删除页眉和页脚肯定会有所帮助。我不知道这样做的工具。你知道工具或方法吗? (理论上删除页码的一般想法是“简单的”:找到每页大约出现一次的连续增加的数字。)
使用可以判断句子在语法上正确的可能性的NLP解析器会有所帮助。通过这种方式,我可以比较两个句子的语法正确性,与其合并的正确性进行比较。 (据我所知,斯坦福分析师并不评估语法正确性。)你知道可以提供帮助的工具吗?
如果您有解决问题的建议,答案或其他方法,请与我们联系。
答案 0 :(得分:1)
使用Apache Tika从pdf中提取数据。