Question

看起来LinkExtractor无法从函数（see here）内的ajax请求加载/生成的数据中提取链接！

那么，有没有办法在函数中添加提取链接，然后手动将它们添加到LinkExtractor，或强制LinkExtractor抓住它们？

Answer 1

我不确定我是否在这里正确理解您，但似乎您将$my_regex = str_replace(array("?", "*", "/"), array("\\?", "(.*)", "\\/"), "/?hl=*&*$");与LinkExtractor混淆。 LinkExtractor只是一个从响应中提取链接的对象，其中rules属性描述了CrawlSpider.rules的抓取规则。

如果您想在自己手动提取某些链接时使用CrawlSpider，您可以通过以下方式实现：

CrawlSpider

我可以手动添加链接到LinkExtractor吗？

1 个答案: