Question

我想解析使用scrapy抓取网站时遇到的PDF文档。我使用以下代码从PDF文档中提取HTML页面源，但它无法正常工作

a = response.xpath("//html").extract()

如何从PDF文档中获取内容并将其纳入scrapy工作流程？

Answer 1

Scrapy可能不是解析pdf文档的最佳工具。但您可以在抓取时识别此类链接并添加处理此类文档的功能。解决方案是使用解析函数来处理这种情况，并在遇到pdf页面时调用它。

正如@Morad Edwar指出的那样，你可以使用像
这样的库 pdfquery PDFMiner等。

您可以使用这些库提取数据，并将这些数据放入项目管道中，就像通常使用scrapy一样。