给定域名,获取以模式开头的网址列表

时间:2019-01-15 02:42:25

标签: python web-scraping scrapy

例如,域为https://example.com/,只有这4个子域

因此,如果我指定https://example.com/p_,则将获得前3个网址。

如何使用搜寻器执行此操作?

2 个答案:

答案 0 :(得分:2)

在草木里有Linkextractor here

它们用于指定url样式以通过传递regex进行爬网。要使用此样式,您还需要从CrawlSpider而不是Spider继承并导入一些库

您可以使用

Rule(
    LinkExtractor(`regex(.*/p_.?)`, callback=function_name)
)

您可以在文档中阅读更多内容。

答案 1 :(得分:0)

仅供参考,在您提供的示例中,这些不是子域,而是URI路径。

在Python 3中:

cake = Recipe(ing=('eggs', 'sugar', 'flour')

要进行抓取,请查看scrapy