我有一个关于scrapy的快速问题。据我所知,链接提取器只捕获具有类似href =的属性的链接。我遇到的唯一问题就是抓住这样的链接:<link> link here </link>
这是我用于爬行蜘蛛的当前规则之一:Rule(LinkExtractor(allow=('feedproxy'), tags='link'), follow=True, callback="parse_urls")
任何帮助都将不胜感激,谢谢。 -SAM
答案 0 :(得分:0)
我认为您需要手动处理这些类型的链接。可以通过tags
and attrs
arguments控制Link Extractors
:
标签(str或list) - 要考虑的标签或标签列表 提取链接。默认为(&#39; a&#39;,&#39; area&#39;)。
attrs(list) - 一个 属性或属性列表,应该在何时考虑 寻找提取的链接(仅适用于指定的那些标签) 标签参数)。默认为(&#39; href&#39;,)
但是,他们只能从属性获取链接。
因此,在当前配置中,您只能提取以下类型的链接:
<link href="http://google.com">test</link>