应用错误收集

我正在处理已转换为文本的PDF。问题？有时，由于PDF格式化和/或PDF到文本的转换，句子会被分割。

所以我正在寻找有助于“重新组合”分裂的句子的工具。页眉或页脚通常是罪魁祸首。其他元素，如数字和图表，也可以发挥作用，但它们现在不是我主要关注的问题。

可以通过以下几种方式解决这个问题：

在进行NLP句子检测之前删除页眉和页脚肯定会有所帮助。我不知道这样做的工具。你知道工具或方法吗？（理论上删除页码的一般想法是“简单的”：找到每页大约出现一次的连续增加的数字。）
使用可以判断句子在语法上正确的可能性的NLP解析器会有所帮助。通过这种方式，我可以比较两个句子的语法正确性，与其合并的正确性进行比较。（据我所知，斯坦福分析师并不评估语法正确性。）你知道可以提供帮助的工具吗？

如果您有解决问题的建议，答案或其他方法，请与我们联系。