如何检测网站是擅自占地者?

时间:2014-04-10 22:42:28

标签: java algorithm web-crawler feature-detection

我试图检测某些网站是否有效"网站。一些使网站无效的事情:

  • 回复不良状态代码
  • 页面内容为空
  • 网站是擅自占地者(例如,网址指向GoDaddy页面,或者说要注册此域名的任何页面!)

我试图找出如何检测网站是否是擅自占地者。如果重要,我会使用Java。有什么想法吗?

1 个答案:

答案 0 :(得分:2)

在我看来,Machine Learning听起来像是一项很好的任务。

收集一些网站样本,其中一些是“擅自占地者”。其中一些不是(这被称为火车组)。

使用bag of words模型或tf-idf model(或任何其他模型)作为功能空间,并使用supervised learning algorithm SVM {decision trees {{{{}}来训练分类器{3}},...)。

在运行时,使用分类器确定网站是否是擅自占地者。

Weka是一个实现了许多机器学习算法的java库,可能会对你有帮助。