如何使用pdflib逐句获取文本?

时间:2016-05-22 05:37:34

标签: pdflib

pdflib 是分析PDF的好软件。当我用它从PDF中提取文本时。如何逐句提取文字?现在我只能通过单词,行,页面提取。例如,在PDF中提供以下内容:

I want to extract text from pdf
Sentence by sentence. Is there 
anybody can help?

单词模式每次返回一个单词(即I; want; to; extract ...),行模式每次返回一行(即我想从pdf中提取文本;句子句子是否存在; anyboy可以帮助?)。页面模式返回整个段落。我想得的每次都是句子(即我想逐句从PDF中提取文字;有人可以帮忙吗?)

1 个答案:

答案 0 :(得分:0)

我通过电子邮件发送了支持,以下是他们的回复:

您好,

TET无法做到这一点。我假设你引用TET(而不是PDFlib) 是我们的文本提取工具包。

要按句子检索内容,您必须添加一个帖子过程 确定句子结束然后根据需要返回字符串。 例如,当您使用粒度词时,您将遍历所有单词。 然后你将所有单词组合起来,直到这个单词被判断为句子。然后 你返回字符串。 但是,这必须在您的代码中完成。