应用错误收集

一个对站点地图有智能支持的爬虫？

时间：2014-07-28 16:32:33

标签： sitemap web-crawler

我试图定期抓住几百个网站。我想以最有效和最一致的方式做到这一点。要做到这一点，似乎正确的方法是在找到它们的地方使用站点地图。首先，我正在寻找一种识别站点地图并知道如何使用它们的爬虫。第二个问题是爬虫是多么聪明。虽然有些网站完美地保留了他们的站点地图，但很多站点都没有。他们的站点地图可能已过期或采用非标准格式。每种情况都需要不同的方法。

所以问题是这是否已经在开源（或商业世界）中得到解决？有没有做得好或做得好的项目？我查看了一些我发现的开源爬虫，但无法找到这种级别的站点抓取智能。如果答案是否定的。这个问题还有其他好的资源吗？

1 个答案:

答案 0 :(得分：0)

我们的开源搜寻器Norconex HTTP Collector确实支持站点地图。我不知道您遇到的非标准格式，但它会检测不同位置的站点地图（网站根目录，在robots.txt中列出，用户提供）。它支持站点地图子索引以及压缩站点地图。如果您想推荐新功能，请尝试give your feedback。如果您了解Java的方法，也可以使用自己的方法交换默认的站点地图解析实现。