如何在pdf文件中逐行阅读并创建CSV

时间:2014-09-17 15:56:28

标签: python pdf scrapy pdf-scraping

这是我的pdf enter image description here 我找到THIS并用它来废弃我的PDF格式。

6 BEDROOMS
NameAddressUnitSizeKeyRentSq FtMove in DateNotesTenant
Prop #
Texan 261009 West 26th3076x3$4,6952,1368/15/14$1,000 Bonus (1) Park -     

它非常混乱。或是因为PDF的格式是不可读的?我认为有一种方法可以废弃每一行并通过迭代或其他方式创建带有列的CSV。

像使用列填充CSV

T26 | Texan 26          | 1009 West 26th | 307      | 6x3 | ... 
e075| Texan North Campus| 5117 N Lamar   |See below | 6x3 |...

有解决方法吗?

2 个答案:

答案 0 :(得分:0)

您使用的代码段提供了一些实际上无法使用的数据,我不认为这是可行的方法。从PDF中搜索通常比较困难,但是请看一下pdftables.com:它们提供了一个用于从PDF文档中抓取表格的API,我发现这些表格在大多数情况下都有效 - 这是你最好的机会在此,我要说。

答案 1 :(得分:0)

您可以使用Camelot(这是一个Python库)来创建一个脚本,该脚本从PDF中提取表格数据并将其导出为CSV。您可以在http://camelot-py.readthedocs.io上查看文档。如果您可以将链接发布到PDF,则将很有帮助。这是一个通用的代码示例:

>>> import camelot
>>> tables = camelot.read_pdf('file.pdf')
>>> type(tables[0].df)
<class 'pandas.core.frame.DataFrame'>
>>> tables[0].to_csv('file.csv')

免责声明:我是图书馆的作者。