scages从标签之间抓取网址

时间:2014-09-11 23:00:57

标签: python web-scraping scrapy

我有一个关于scrapy的快速问题。据我所知,链接提取器只捕获具有类似href =的属性的链接。我遇到的唯一问题就是抓住这样的链接:<link> link here </link>这是我用于爬行蜘蛛的当前规则之一:Rule(LinkExtractor(allow=('feedproxy'), tags='link'), follow=True, callback="parse_urls")任何帮助都将不胜感激,谢谢。 -SAM

1 个答案:

答案 0 :(得分:0)

我认为您需要手动处理这些类型的链接。可以通过tags and attrs arguments控制Link Extractors

  

标签(str或list) - 要考虑的标签或标签列表   提取链接。默认为(&#39; a&#39;,&#39; area&#39;)。

     

attrs(list) - 一个   属性或属性列表,应该在何时考虑   寻找提取的链接(仅适用于指定的那些标签)   标签参数)。默认为(&#39; href&#39;,)

但是,他们只能从属性获取链接。

因此,在当前配置中,您只能提取以下类型的链接:

<link href="http://google.com">test</link>