Bot Web质量

时间:2009-11-01 19:26:06

标签: web-crawler googlebot

我正在寻找一个好的开源机器人来确定谷歌索引通常需要的一些质量。

例如

  • 找到重复的标题
  • 无效链接(jspider这样做,我认为会有更多这样做)
  • 完全相同的页面,但不同的网址
  • 等,等等等于Google质量要求。

2 个答案:

答案 0 :(得分:1)

您的要求非常具体,因此开源产品不太可能完全符合您的要求。

但是,有许多用于构建Web爬网程序的开源框架。您使用哪一个取决于您的语言偏好。

例如:

通常,这些框架将根据您提供的规则提供用于抓取和抓取网站页面的类,但是您可以通过挂钩自己的代码来提取所需的数据。

答案 1 :(得分:0)

Google Webmaster Tools 是基于网络的服务(而不是按需的机器人),它并不能满足您的要求 - 但它确实做了一些它和很多你没有要求过的东西,而且 - 来自谷歌 - 毫无疑问它与你的奇怪的“等相匹配,等等谷歌质量要求。”比其他任何地方都要好。< / p>