标签: python pdf web-scraping
我正在使用python
有人可以建议我一个很好的模块来获取唯一需要的表 我试过pypdf,pdf2html,ocr,slate但没什么作用
由于
答案 0 :(得分:3)
首先,将PDF转换为HTML。请参阅Converting PDF to HTML with Python。
然后,使用HTML解析库解析从PDF生成的HTML。见BeautifulSoup HTML table parsing