我有几个pdf,其中散布了一些代码(没有固定位置),如下所示:
oneCode=abcd
twoCode=4566
我想解析每个pdf以找到键“oneCode”或“twoCode”并从我的java程序中获取相应的值。
这些功能是否可用于任何开源pdf解析器,如PDFBox等?
任何人都可以指出一个例子吗?
此外,我的pdf可能有不同的大小,从大到小,我可能需要从我的程序中解析数以千计的PDF。因此,解析完整的pdf然后从解析的文本中搜索密钥可能会变得非常慢。
那么在我的场景中是否有任何现有功能可以提供帮助?
感谢阅读!
答案 0 :(得分:0)
我认为你不能比线性搜索更快。只是排序或索引的操作至少需要O(n),所以即使有快速索引搜索的读者,它们也需要一些预处理时间。
您需要找到一个能够快速将数据传输到内存中的阅读器,以便您可以快速读取数据。