如何使用机器学习对网址进行分类?

时间:2012-11-01 10:54:45

标签: url machine-learning

我正在为网站的内容编制索引,我想仅根据网址实施一些分类。

我想从导航页面告诉appart内容视图页面。 “内容查看页面”是指网页,通常可以看到产品或书面文章的详细信息。 “导航页面”是指(通常)由内容页面链接列表或其他更具体的列表页面组成的页面。

虽然有些网站使用网站范围的密钥系统来映射他们的内容,但是大多数网站会一点一点地对其进行密钥映射,所以这应该是可能的。

在实践中,我想要做的是从网站获取网址列表并按相似性对它们进行分组。我相信这可以通过机器学习完成,但我不知道如何。 机器学习似乎是一个广泛的主题,我应该特别开始阅读什么? 哪个概念,哪个算法,哪个工具?

3 个答案:

答案 0 :(得分:3)

如果你想自动发现这些组,我建议你发现自己是一个聚类算法的实现(K-Means可能是最受欢迎的,你不会说你想用它做什么语言)。您知道有两个类别,因此允许您指定先验类别的数量将使问题更容易。

之后,为您的网页定义一系列功能,并通过k-means运行它们以查看生成哪种类型的组。调整您使用的功能,直到获得令人满意的效果。如果您可以访问自己的网页,我强烈建议您使用整个网页上定义的功能,而不仅仅是网址。

答案 1 :(得分:2)

首先需要收集导航/内容页面的数据集并对其进行标记。之后,它很直接。

您将使用哪种语言?我建议你试试Weka这是一个基于java的工具,你只需按一个按钮就可以获得50多个算法的性能指标。之后,您将知道哪个是最准确的并且可以部署它。

答案 2 :(得分:2)

我觉得您正试图在HITS算法中对AuthorityHub进行分类。

  • Hub是您的导航页面;
  • Authority是您的内容视图页。

通过对每个网页进行链接分析,您应该能够通过在域中的所有网页上执行HITS来找出页面类型。如下图所示,左图显示了网页之间的链接关系。右图显示了运行HITS后对各个中心/权限的评分。 HITS不需要任何标签启动。更新规则很简单:基本上只有一个权限分数更新和另一个中心分数更新。

enter image description here enter image description here

Here是一个讨论pagerank / HITS的教程,我借用了上面两张图。

Here是HITS的扩展版本,用于组合HITS和信息检索方法(TF-IDF,向量空间模型等)。这看起来更有希望,但肯定需要更多的工作。我建议你从朴素的HITS开始,看看它有多好。最重要的是,尝试BHITS中提到的一些技巧来提高您的表现。