Question

使用爬行蜘蛛的任何方式吗？不屈服于请求。只是一个例子就足够了。我想使用href文本作为网页的标题，并有一个链接到包含链接的网址。我只是使用基本选择器来填充我的项目，但不知道如何获取此信息。

编辑：我调查了它，我希望能够传递href标题的元数据并引用url，并且能够遵守我定义的规则，而不是必须自己获取所有网址和条件。

meta = {“hrefText”：...，“refURL”：...}

Answer 1

请参阅CrawlSpider代码：

for link in links:
    r = Request(url=link.url, callback=self._response_downloaded)
    r.meta.update(rule=n, link_text=link.text)
    yield rule.process_request(r)

意味着您可以从response.meta['link_text']

获取href文字

在Scrapy中传递href文本并引用网页

1 个答案: