Question

例如，域为https://example.com/，只有这4个子域

因此，如果我指定https://example.com/p_，则将获得前3个网址。

如何使用搜寻器执行此操作？

Answer 1

在草木里有Linkextractor here

它们用于指定url样式以通过传递regex进行爬网。要使用此样式，您还需要从CrawlSpider而不是Spider继承并导入一些库

您可以使用

Rule(
    LinkExtractor(`regex(.*/p_.?)`, callback=function_name)
)

您可以在文档中阅读更多内容。

Answer 2

仅供参考，在您提供的示例中，这些不是子域，而是URI路径。

在Python 3中：

cake = Recipe(ing=('eggs', 'sugar', 'flour')

要进行抓取，请查看scrapy