Question

我有几个pdf，其中散布了一些代码（没有固定位置），如下所示：

oneCode=abcd
twoCode=4566

我想解析每个pdf以找到键“oneCode”或“twoCode”并从我的java程序中获取相应的值。

这些功能是否可用于任何开源pdf解析器，如PDFBox等？

任何人都可以指出一个例子吗？

此外，我的pdf可能有不同的大小，从大到小，我可能需要从我的程序中解析数以千计的PDF。因此，解析完整的pdf然后从解析的文本中搜索密钥可能会变得非常慢。

那么在我的场景中是否有任何现有功能可以提供帮助？

感谢阅读！

Answer 1

我认为你不能比线性搜索更快。只是排序或索引的操作至少需要O（n），所以即使有快速索引搜索的读者，它们也需要一些预处理时间。

您需要找到一个能够快速将数据传输到内存中的阅读器，以便您可以快速读取数据。