Question

使用Scrapy将HTML下载到我的硬盘（例如，使用带有字段HTML的内置项目导出程序，或将所有HTML文件存储到文件夹中），如何使用Scrapy从我的数据中读取数据再次硬盘并执行管道中的下一步？是否有类似物品进口商的东西？

Answer 1

如果HTML页面存储在运行Scrapy的本地PC上，则可以删除以下URI：

file:///tmp/page1.html

使用Scrapy。在此示例中，我假设一个此类页面存储在文件/tmp/page1.html中。

第二个选项是使用任何方式获取文件的内容并手动构建Selector对象，如下所示：

import scrapy

# read the content of the page into page_content variable
root_sel = scrapy.Selector(text=page_content)

然后，您可以正常处理root_sel选择器，例如

title = root_sel.css('h1.title').extract_first()