在Scrapy中传递href文本并引用网页

时间:2014-02-09 16:03:59

标签: python scrapy

使用爬行蜘蛛的任何方式吗?不屈服于请求。只是一个例子就足够了。我想使用href文本作为网页的标题,并有一个链接到包含链接的网址。我只是使用基本选择器来填充我的项目,但不知道如何获取此信息。

编辑: 我调查了它,我希望能够传递href标题的元数据并引用url,并且能够遵守我定义的规则,而不是必须自己获取所有网址和条件。

meta = {“hrefText”:...,“refURL”:...}

1 个答案:

答案 0 :(得分:0)

请参阅CrawlSpider代码:

for link in links:
    r = Request(url=link.url, callback=self._response_downloaded)
    r.meta.update(rule=n, link_text=link.text)
    yield rule.process_request(r)

意味着您可以从response.meta['link_text']

获取href文字