Scrapy无法提取链接

时间:2016-10-26 10:21:14

标签: python scrapy scrapy-spider

我编写了一个抓取工具,用于从网页中提取链接和文本。这是内容的结构

DIV   - UL     - 李      - 一个

这是我的代码

from scrapy import Spider
from scrapy.selector import Selector

from stack.items import StackItem


class StackSpider(Spider):
    name = "stack"
    allowed_domains = ["stackoverflow.com"]
    start_urls = [
        "http://page.com",
    ]

    def parse(self, response):
        documents = Selector(response).xpath('//*[@id="node-329"]/div[1]/ul/li')

        for document in documents:
            item = StackItem()
            item['title'] = document.xpath('./a/text()').extract()
            item['link'] = document.xpath('/a/@href').extract()
            yield item

基本上,标签/ a / @ href不起作用。如果我对此进行评论并尝试仅提取文本,则可以正常工作。

请帮帮我。

0 个答案:

没有答案