我试图定期抓住几百个网站。我想以最有效和最一致的方式做到这一点。要做到这一点,似乎正确的方法是在找到它们的地方使用站点地图。首先,我正在寻找一种识别站点地图并知道如何使用它们的爬虫。第二个问题是爬虫是多么聪明。虽然有些网站完美地保留了他们的站点地图,但很多站点都没有。他们的站点地图可能已过期或采用非标准格式。每种情况都需要不同的方法。
所以问题是这是否已经在开源(或商业世界)中得到解决?有没有做得好或做得好的项目?我查看了一些我发现的开源爬虫,但无法找到这种级别的站点抓取智能。如果答案是否定的。这个问题还有其他好的资源吗?
答案 0 :(得分:0)
我们的开源搜寻器Norconex HTTP Collector确实支持站点地图。我不知道您遇到的非标准格式,但它会检测不同位置的站点地图(网站根目录,在robots.txt中列出,用户提供)。它支持站点地图子索引以及压缩站点地图。如果您想推荐新功能,请尝试give your feedback。如果您了解Java的方法,也可以使用自己的方法交换默认的站点地图解析实现。