使用scrapy进行爬网时处理pdf文档

时间:2015-02-13 12:42:15

标签: python python-2.7 pdf web-scraping scrapy

我想解析使用scrapy抓取网站时遇到的PDF文档。我使用以下代码从PDF文档中提取HTML页面源,但它无法正常工作

a = response.xpath("//html").extract()

如何从PDF文档中获取内容并将其纳入scrapy工作流程?

1 个答案:

答案 0 :(得分:0)

Scrapy可能不是解析pdf文档的最佳工具。但您可以在抓取时识别此类链接并添加处理此类文档的功能。解决方案是使用解析函数来处理这种情况,并在遇到pdf页面时调用它。

正如@Morad Edwar指出的那样,你可以使用像
这样的库 pdfquery PDFMiner等。

您可以使用这些库提取数据,并将这些数据放入项目管道中,就像通常使用scrapy一样。