我可以手动添加链接到LinkExtractor吗?

时间:2016-08-05 08:03:16

标签: python scrapy

看起来LinkExtractor无法从函数(see here)内的ajax请求加载/生成的数据中提取链接!

那么,有没有办法在函数中添加提取链接,然后手动将它们添加到LinkExtractor,或强制LinkExtractor抓住它们?

1 个答案:

答案 0 :(得分:1)

我不确定我是否在这里正确理解您,但似乎您将$my_regex = str_replace(array("?", "*", "/"), array("\\?", "(.*)", "\\/"), "/?hl=*&*$"); LinkExtractor混淆。 LinkExtractor只是一个从响应中提取链接的对象,其中rules属性描述了CrawlSpider.rules的抓取规则。

如果您想在自己手动提取某些链接时使用CrawlSpider,您可以通过以下方式实现:

CrawlSpider