应用错误收集

scf for pdf file中的表格内容

时间：2012-06-07 06:13:27

标签： python pdf web-scraping

我正在使用python

进行pdf文件中的表格抓取

有人可以建议我一个很好的模块来获取唯一需要的表我试过pypdf，pdf2html，ocr，slate但没什么作用

由于

1 个答案:

答案 0 :(得分：3)

首先，将PDF转换为HTML。请参阅Converting PDF to HTML with Python。

然后，使用HTML解析库解析从PDF生成的HTML。见BeautifulSoup HTML table parsing