如何重新组合分句?

时间:2012-11-14 01:04:20

标签: pdf nlp sentence

我正在处理已转换为文本的PDF。问题?有时,由于PDF格式化和/或PDF到文本的转换,句子会被分割。

所以我正在寻找有助于“重新组合”分裂的句子的工具。页眉或页脚通常是罪魁祸首。其他元素,如数字和图表,也可以发挥作用,但它们现在不是我主要关注的问题。

可以通过以下几种方式解决这个问题:

  1. 在进行NLP句子检测之前删除页眉和页脚肯定会有所帮助。我不知道这样做的工具。你知道工具或方法吗? (理论上删除页码的一般想法是“简单的”:找到每页大约出现一次的连续增加的数字。)

  2. 使用可以判断句子在语法上正确的可能性的NLP解析器会有所帮助。通过这种方式,我可以比较两个句子的语法正确性,与其合并的正确性进行比较。 (据我所知,斯坦福分析师并不评估语法正确性。)你知道可以提供帮助的工具吗?

  3. 如果您有解决问题的建议,答案或其他方法,请与我们联系。

1 个答案:

答案 0 :(得分:1)

使用Apache Tika从pdf中提取数据。