如何通过xpath从scrapy的源代码中提取节?

时间:2019-02-09 21:35:34

标签: python scrapy scrapy-shell

我正在尝试从某个部分的网站源代码中提取文本。

我要提取的网站的源代码如下:

if ('function' === typeof window.ToggleFilters) {
    window.ToggleFilters();
}
</script>

<main id="main" data-danger="">

<section data-creation-date="2018-10-15 11:35:06">

    <div class="detail__content">

我已经尝试通过response.css和response.xpath尝试通过scrapy shell顺利地从源代码中获取数据。

response.xpath("//*[contains('data-creation')]")

我只想提取数据创建日期,所以它看起来像

'2018-10-15 11:35:06'

1 个答案:

答案 0 :(得分:2)

response.css('#main section::attr("data-creation-date")').extract_first()

response.xpath("//@data-creation-date").extract_first()

response.xpath("//main/section/@data-creation-date").extract_first()