我正在尝试阅读以下pdf文件,我需要在单独的文件中保存每篇文章。
https://dl.dropboxusercontent.com/u/23092311/sample.pdf
文章可以在一个或多个页面中。我使用PDFMiner将整个pdf转换为txt文件。但我不知道如何转换成多篇文章。
我是Python新手。请提供最佳方法或示例代码,以单独提取每篇文章?
答案 0 :(得分:0)
我会说实话。我之前从未使用过PDFMiner,但是如果你已经将PDF文件放入文本文件中,那么你不能将文本文件解析为字符串,然后使用split function将字符串分成不同的文章在“纽约时报”的标题?我想这假设PDFMiner能够读取那种花哨的字体,我不知道是否可能。
查看您提供的文件,您可以执行以下操作:
reading = open('test.txt')
full_paper = reading.read()
split_paper = full_paper.split('Copyright 2014 The New York Times Company. All Rights Reserved.')
split_paper将是一个数组,其中包含索引1,2,3,4,5,6中的文章(索引0将包含初始标题)。你必须做一些其他的字符串清理来获得确切的文章,但这至少应该让你开始。
有意义吗?