如何使用Scrapy在csv中的不同行上刮取和提取类似的xpath

时间:2014-04-22 06:45:38

标签: python html xpath scrapy

我面对的是一个由多个H2标签组成的页面,我要求所有这些标题存储在我的csv表单独立的行中。我正在使用scrapy,我目前的代码是:

item ["title"] = titles.select("//h2/text()").extract()

显然,这最终会将该页面的所有h2标签存储到我的csv中的一个单元格中。

在刮掉每个h2标签后,我有什么方法可以休息一下吗?

由于

1 个答案:

答案 0 :(得分:1)

您可以循环播放每个h2并按h2创建一个项目,设置"标题"对于每个人:

    items = []
    for title in titles.select("h2"):

        item = MyItem()

        # note the relative XPath expression (starting with "./")
        item["title"] = title.select("./text()").extract()

        items.append(item)

    return items