使用爬行蜘蛛的任何方式吗?不屈服于请求。只是一个例子就足够了。我想使用href文本作为网页的标题,并有一个链接到包含链接的网址。我只是使用基本选择器来填充我的项目,但不知道如何获取此信息。
编辑: 我调查了它,我希望能够传递href标题的元数据并引用url,并且能够遵守我定义的规则,而不是必须自己获取所有网址和条件。
meta = {“hrefText”:...,“refURL”:...}
答案 0 :(得分:0)
请参阅CrawlSpider代码:
for link in links:
r = Request(url=link.url, callback=self._response_downloaded)
r.meta.update(rule=n, link_text=link.text)
yield rule.process_request(r)
意味着您可以从response.meta['link_text']