使用Scrapy将HTML下载到我的硬盘(例如,使用带有字段HTML
的内置项目导出程序,或将所有HTML文件存储到文件夹中),如何使用Scrapy从我的数据中读取数据再次硬盘并执行管道中的下一步?是否有类似物品进口商的东西?
答案 0 :(得分:2)
如果HTML页面存储在运行Scrapy的本地PC上,则可以删除以下URI:
file:///tmp/page1.html
使用Scrapy。在此示例中,我假设一个此类页面存储在文件/tmp/page1.html
中。
第二个选项是使用任何方式获取文件的内容并手动构建Selector
对象,如下所示:
import scrapy
# read the content of the page into page_content variable
root_sel = scrapy.Selector(text=page_content)
然后,您可以正常处理root_sel
选择器,例如
title = root_sel.css('h1.title').extract_first()