从网页分类网站类型

时间:2011-01-10 17:34:48

标签: machine-learning document-classification

是否有任何可靠/部署的方法,算法或工具通过解析其网页来标记网站类型。

例如:论坛,博客,新闻发布网站,新闻,电子通讯等。

我正在寻找一些明确定义的特征(静态规则),从中可以确定这一点。如果没有,那么我希望机器学习模型可以提供帮助。

建议/想法?

2 个答案:

答案 0 :(得分:4)

如果从机器学习的角度来看,Naive Bayes分类器可能具有最大的工作/支付率。 Winnow中使用了它的一个版本来对新闻文章进行分类。

您需要一组页面,每个页面都标有正确的类别。然后从每个页面中提取单词或其他相关元素并将其用作特征

Dr.Dobbs有article实施Naive Bayes

答案 1 :(得分:2)

如果你有兴趣坚持天真的贝叶斯方法(毕竟还有其他的机器学习选项),那么我建议下面的文档,它遵循“数据挖掘:实用机器学习工具和技术“,Witten和Frank:

http://www.coli.uni-sb.de/~crocker/Teaching/Connectionist/lecture10_4up.pdf