答案 0 :(得分:2)
在草木里有Linkextractor
here
它们用于指定url
样式以通过传递regex
进行爬网。要使用此样式,您还需要从CrawlSpider
而不是Spider
继承并导入一些库
您可以使用
Rule(
LinkExtractor(`regex(.*/p_.?)`, callback=function_name)
)
您可以在文档中阅读更多内容。
答案 1 :(得分:0)
仅供参考,在您提供的示例中,这些不是子域,而是URI路径。
在Python 3中:
cake = Recipe(ing=('eggs', 'sugar', 'flour')
要进行抓取,请查看scrapy