我试图检测某些网站是否有效"网站。一些使网站无效的事情:
我试图找出如何检测网站是否是擅自占地者。如果重要,我会使用Java。有什么想法吗?
答案 0 :(得分:2)
在我看来,Machine Learning听起来像是一项很好的任务。
收集一些网站样本,其中一些是“擅自占地者”。其中一些不是(这被称为火车组)。
使用bag of words模型或tf-idf model(或任何其他模型)作为功能空间,并使用supervised learning algorithm SVM {decision trees {{{{}}来训练分类器{3}},...)。
在运行时,使用分类器确定网站是否是擅自占地者。
Weka是一个实现了许多机器学习算法的java库,可能会对你有帮助。