我需要提取每个PDF的标题以及特定内容及其页面。 例如,我有一个装满PDF的文件夹,我需要在目录中找到一个名为Enhancements的标题。如果增强内容通常在第一页上复制PDF的标题,则复制增强部分并将其作为增强的时间顺序放在另一个PDF中。
答案 0 :(得分:0)
您需要先从这些PDF中提取带有坐标的文本块。您可以使用您选择的PDF处理软件。
然后,您需要分析提取的块并检测哪些块进入“增强”部分。这是最难的部分。我怀疑有一个软件可以为您提供开箱即用的分析。遗憾。
请注意,PDF中的文字通常以块的形式存储,而不是单词或句子。每个块都是一个或多个字符。它可能是一个字母或一个半字。什么构成块没有保证。