标签: python python-2.7 pdf web-scraping scrapy
我想解析使用scrapy抓取网站时遇到的PDF文档。我使用以下代码从PDF文档中提取HTML页面源,但它无法正常工作
a = response.xpath("//html").extract()
如何从PDF文档中获取内容并将其纳入scrapy工作流程?
答案 0 :(得分:0)
Scrapy可能不是解析pdf文档的最佳工具。但您可以在抓取时识别此类链接并添加处理此类文档的功能。解决方案是使用解析函数来处理这种情况,并在遇到pdf页面时调用它。
正如@Morad Edwar指出的那样,你可以使用像这样的库 pdfquery PDFMiner等。
您可以使用这些库提取数据,并将这些数据放入项目管道中,就像通常使用scrapy一样。