用于语言操作的工具

时间:2017-04-21 15:41:20

标签: java python .net pdf

我有一个问题,我想解决并想了解工具和方法。这项任务并不容易,但我需要清理pdf电子书并准备好文本到语音,这样我就可以制作它们的mp3。这是一个很复杂的问题,但我想从某个地方开始。现在的主要问题是如何从本电子书中删除书籍参考。当然,策略会因格式而异,但在这个特定的电子书上,引用可能如下所示:

  

" Lorem ipsum dolor sit amet,consectetur adipiscing elit,sed do eiusmod tempor incididunt ut labore et dolore magna aliqua。 Ut enim ad minim veniam,quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat。 Duis aute irure dolor in repreptderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur。 Excepteur sint occaecat cupidatat non proident,sunt in culpa qui officia deserunt mollit anim id est laborum。"(5)

和同一页底部的引用:

  

(5)Lorem ipsum dolor sit amet,consectetur adipiscing elit,sed do eiusmod tempor incididunt ut labore et dolore magna aliqua。

底部的引用似乎比文本的其他部分的字体大。也许我可以利用这一点对我有利。我使用正则表达式,但在大多数情况下,它并没有完全削减整个工作的芥末。我需要几个工具,我知道iText,pdfminer,但我还没有学到这些。我不太喜欢文本提取器,我已经可以做到了。我正在寻找更复杂的东西,甚至是语言处理,谁知道呢?

1 个答案:

答案 0 :(得分:1)

您想要从NLTK开始,它是斯坦福大学的自然语言任务库。我找到了这个命名实体提取的基础教程,这听起来像你正在尝试做的。

http://www.nltk.org/

http://www.nltk.org/howto/relextract.html

还有其他几个处理实体提取的api,这里是Quora问题的列表: https://www.quora.com/What-is-the-best-entity-extraction-API-+-service