Scrapy:如何在不下载html的情况下重现结果?

时间:2017-06-20 05:17:17

标签: python web-scraping scrapy reproducible-research

使用Scrapy将HTML下载到我的硬盘(例如,使用带有字段HTML的内置项目导出程序,或将所有HTML文件存储到文件夹中),如何使用Scrapy从我的数据中读取数据再次硬盘并执行管道中的下一步?是否有类似物品进口商的东西?

1 个答案:

答案 0 :(得分:2)

如果HTML页面存储在运行Scrapy的本地PC上,则可以删除以下URI:

file:///tmp/page1.html

使用Scrapy。在此示例中,我假设一个此类页面存储在文件/tmp/page1.html中。

第二个选项是使用任何方式获取文件的内容并手动构建Selector对象,如下所示:

import scrapy

# read the content of the page into page_content variable
root_sel = scrapy.Selector(text=page_content)

然后,您可以正常处理root_sel选择器,例如

title = root_sel.css('h1.title').extract_first()