Question

pdflib 是分析PDF的好软件。当我用它从PDF中提取文本时。如何逐句提取文字？现在我只能通过单词，行，页面提取。例如，在PDF中提供以下内容：

I want to extract text from pdf
Sentence by sentence. Is there 
anybody can help?

单词模式每次返回一个单词（即I; want; to; extract ...），行模式每次返回一行（即我想从pdf中提取文本;句子句子是否存在; anyboy可以帮助？）。页面模式返回整个段落。我想得的每次都是句子（即我想逐句从PDF中提取文字;有人可以帮忙吗？）

Answer 1

我通过电子邮件发送了支持，以下是他们的回复：

您好，

TET无法做到这一点。我假设你引用TET（而不是PDFlib）是我们的文本提取工具包。

要按句子检索内容，您必须添加一个帖子过程确定句子结束然后根据需要返回字符串。例如，当您使用粒度词时，您将遍历所有单词。然后你将所有单词组合起来，直到这个单词被判断为句子。然后你返回字符串。但是，这必须在您的代码中完成。