我面对的是一个由多个H2标签组成的页面,我要求所有这些标题存储在我的csv表单独立的行中。我正在使用scrapy,我目前的代码是:
item ["title"] = titles.select("//h2/text()").extract()
显然,这最终会将该页面的所有h2标签存储到我的csv中的一个单元格中。
在刮掉每个h2标签后,我有什么方法可以休息一下吗?
由于
答案 0 :(得分:1)
您可以循环播放每个h2
并按h2
创建一个项目,设置"标题"对于每个人:
items = []
for title in titles.select("h2"):
item = MyItem()
# note the relative XPath expression (starting with "./")
item["title"] = title.select("./text()").extract()
items.append(item)
return items