scf for pdf file中的表格内容

时间:2012-06-07 06:13:27

标签: python pdf web-scraping

我正在使用python

进行pdf文件中的表格抓取

有人可以建议我一个很好的模块来获取唯一需要的表 我试过pypdf,pdf2html,ocr,slate但没什么作用

由于

1 个答案:

答案 0 :(得分:3)

首先,将PDF转换为HTML。请参阅Converting PDF to HTML with Python

然后,使用HTML解析库解析从PDF生成的HTML。见BeautifulSoup HTML table parsing