应用错误收集

刮擦多管PDF的最佳方法

时间：2019-07-23 18:57:36

标签： python pdf web-scraping

也许我还没有找到解决此问题的现有问题，但是我在以下URL上有一个PDF：http://labettecountykssheriff.org/plugins/show_image.php?id=3997，我正在尝试找出以某种方式抓取其内容的最佳方法具有统一性，以便可以将它们放入数据库中。

我已经尝试了PDFMiner TextConverter并查看了Tabula（尽管当我尝试用multi_tables = True调用read_pdf时可能做的并不正确，因为它返回了一个空列表）。

0 个答案:

没有答案