我有一个PDF文件,我想将其标题提取为一个字符串。标题我不是指元数据中的标题,而是文档中写的实际标题。例如,从here我想获得“2014S官方SAT®实践考试”
有没有办法实现这个目标?
答案 0 :(得分:3)
我会看看PDFMiner。基本上,您可以以编程方式加载PDF。然后,您需要进行某种类型的分析,以找出如何提取标题。也许您尝试使用第一个直到新的换行符或某种类型的算法方法。我建议您使用大量的PDF文件,在那里您知道标题,并针对它们运行您的程序以测试您是否成功检测到标题。然后,您可以使用该代码处理您不知道标题的PDF。这种技术通常被称为使用训练集。