像exmpl.com/search.php?q=hey
这样的网址包含各种各样的GET参数,我想对这些链接进行分类,以防止我的抓取工具抓取这样的"低优先级"网址。
答案 0 :(得分:0)
这取决于您要抓取的内容以及您想要使用它做什么,如果它是一些特定的网站或广泛的抓取。有时,网站的所有者不希望您抓取这些网址,因为它们会产生额外的流量(对两者都无用的流量),并且他们也可能会使用robots.txt文件。看看吧(无论如何你应该尊重它)。
这些低质量的网址,如您所说,也可能发生在:
如果您在用户代理上有联系人,他们有时会与您联系以停止抓取特定类型的网址,或者与您一起调整应该抓取的内容以及如何(例如,每秒的请求数)
因此,这取决于您尝试抓取的内容。看看前沿并试图找到奇怪的行为:
(.*\?widgetType=.*)
或(.*\&action=buy_now.*)
)所有这些网址都是从抓取中排除的好选择。识别公共部分并将其用作排除规则中的正则表达式。