看起来LinkExtractor无法从函数(see here)内的ajax请求加载/生成的数据中提取链接!
那么,有没有办法在函数中添加提取链接,然后手动将它们添加到LinkExtractor,或强制LinkExtractor抓住它们?
答案 0 :(得分:1)
我不确定我是否在这里正确理解您,但似乎您将$my_regex = str_replace(array("?", "*", "/"), array("\\?", "(.*)", "\\/"), "/?hl=*&*$");
与LinkExtractor
混淆。 LinkExtractor只是一个从响应中提取链接的对象,其中rules属性描述了CrawlSpider.rules
的抓取规则。
如果您想在自己手动提取某些链接时使用CrawlSpider,您可以通过以下方式实现:
CrawlSpider