Question

我正在尝试阅读以下pdf文件，我需要在单独的文件中保存每篇文章。

https://dl.dropboxusercontent.com/u/23092311/sample.pdf

文章可以在一个或多个页面中。我使用PDFMiner将整个pdf转换为txt文件。但我不知道如何转换成多篇文章。

我是Python新手。请提供最佳方法或示例代码，以单独提取每篇文章？

Answer 1

我会说实话。我之前从未使用过PDFMiner，但是如果你已经将PDF文件放入文本文件中，那么你不能将文本文件解析为字符串，然后使用split function将字符串分成不同的文章在“纽约时报”的标题？我想这假设PDFMiner能够读取那种花哨的字体，我不知道是否可能。

查看您提供的文件，您可以执行以下操作：

reading = open('test.txt')
full_paper = reading.read()
split_paper = full_paper.split('Copyright 2014 The New York Times Company. All Rights Reserved.')

split_paper将是一个数组，其中包含索引1,2,3,4,5,6中的文章（索引0将包含初始标题）。你必须做一些其他的字符串清理来获得确切的文章，但这至少应该让你开始。

有意义吗？

使用Python阅读pdf内容

1 个答案: