Question

我有一个关于scrapy的快速问题。据我所知，链接提取器只捕获具有类似href =的属性的链接。我遇到的唯一问题就是抓住这样的链接：<link> link here </link>这是我用于爬行蜘蛛的当前规则之一：Rule(LinkExtractor(allow=('feedproxy'), tags='link'), follow=True, callback="parse_urls")任何帮助都将不胜感激，谢谢。 -SAM

Answer 1

我认为您需要手动处理这些类型的链接。可以通过tags and attrs arguments控制Link Extractors：

标签（str或list） - 要考虑的标签或标签列表   提取链接。默认为（＆＃39; a＆＃39;，＆＃39; area＆＃39;）。

attrs（list） - 一个   属性或属性列表，应该在何时考虑   寻找提取的链接（仅适用于指定的那些标签）   标签参数）。默认为（＆＃39; href＆＃39;，）

但是，他们只能从属性获取链接。

因此，在当前配置中，您只能提取以下类型的链接：

<link href="http://google.com">test</link>

scages从标签之间抓取网址

1 个答案: