使用Java中的Aspose PDF从特定页面中提取特定文本

时间:2018-04-03 15:54:35

标签: java aspose aspose.pdf

如何使用Java中的Aspose PDF从pdf文件中提取文本? 我在寻找Aspose API的 this 功能(没有代码示例?)

修改 -
所需物品:

假设pdf在随机位置包含此文本以及其他一些数据。

First Name: John
Last Name: Doe
City: New York
Phone: (999)-999-9999

注意: 如果它们是pdf文件的字段,我可以轻松获取这些值。这些位于一些随机位置,而不是单独的字段。

每个文档的值John, Doe, New York, (999)-999-9999都会发生变化。

我应该能够搜索First Name, Last Name, City, Phone,这样它也会返回它的前一个值。

有什么建议吗?

1 个答案:

答案 0 :(得分:1)

@intruder,您可以使用正则表达式来检索所需的文本字符串。 Aspose.PDF for Java API接受正则表达式,请尝试以下代码:

<强>爪哇

Document pdfDocument = new Document("source.pdf");
// like 1999-2000
TextFragmentAbsorber textFragmentAbsorber = new TextFragmentAbsorber("\\d{4}-\\d{4}"); 
TextSearchOptions textSearchOptions = new TextSearchOptions(true);
textFragmentAbsorber.setTextSearchOptions(textSearchOptions);
pdfDocument.getPages().accept(textFragmentAbsorber);
TextFragmentCollection textFragmentCollection = textFragmentAbsorber.getTextFragments();
for (TextFragment textFragment : (Iterable<TextFragment>) textFragmentCollection) 
    System.out.println("Text :- " + textFragment.getText());

我与Aspose一起担任开发人员传播者。