对网站列表进行分类的最佳方法是什么?

时间:2009-09-02 14:31:00

标签: algorithm web

我有一个X网站列表,我需要以某种方式进行分类。该网站是关于汽车,健康,产品还是关于一切(wikihow,about.com等?)有哪些更好的方法来对这类网站进行分类?我应该获得为网站带来流量并使用它们的关键字吗?我应该阅读一些随机页面的内容并判断它吗?

4 个答案:

答案 0 :(得分:1)

如果网站设计得很好,标题中会有专门用于此的元标记。

答案 1 :(得分:1)

Yahoo有一个API来提取术语http://developer.yahoo.com/search/content/V2/termExtraction.html

“术语提取Web服务提供从较大内容中提取的重要单词或短语列表。它是Y!Q中使用的技术之一。”

答案 2 :(得分:1)

也许我有点偏颇(免责声明:我拥有图书馆学学位,这个主题是我获得学位的原因之一),所以最简单的答案就是没有最好的方法。

考虑到这就像数据库设计一样 - 一旦你的系统被填充,你会问什么样的问题?

该网站是由政府运营的吗?或者它使用闪光灯?或者页面是蓝色的?或者它是一个业余爱好者网站?或者目标受众是儿童?。

然后我们得到的问题是,我们是否会对我们所关注的任何方面都有一个等级类别 - 如果它是关于汽车摩托车,我们是否应该使用术语“车辆”而不是?如果我们这样做,我们是否会使用关键字扩展,以便“摩托车”与更广泛的术语(即车辆)相匹配?

所以...重点是......弄清楚你的需求是什么,并朝着这个方向努力。 “最佳”永远不会到来,即使经过多年的改进(如果有的话,它会变得更加困难,因为术语开始改变意义。还记得'博客'与网络服务器指标有关吗?)

答案 3 :(得分:0)

这是一个难以回答的问题。考虑:

  • 您希望分类的粒度是多少?
  • 您要根据您自己的标准网站提供的条件对网站进行分类吗?换句话说,如果是某个网站将自己归类为“摩托车维护的首要来源”,您是否想为该网站创建“摩托车维修”类别?当然,这会导致您的列表变得不一致。但是,如果您将网站列为自己的分类方案,则会丢失信息,并且网站将无法与您定义的任何类别相匹配。
  • 您是否允许子类别?如果是这样,问题会变得复杂得多。
  • 某个网站是否属于多个类别?如果是,是否有订购或重量(即主要类别,次要类别等),或者您是否遵循类似的方案到SO的标签?

作为问题的初步尝试,我想我会定义一组类别,然后蜘蛛网每个网站,跟踪每个类别名称的出现次数或其变异。然后,您可以选择具有最多“点击次数”的名称。

例如,给出以下类别:

{ "Cars", "Motorcycles", "Video Games" }

从网站上抓取以下文本块:

  

标题是Eugen Herrigel在“射箭艺术”中的“禅”一书的标题上的一个不协调的戏剧。在其介绍中,Pirsig解释说,尽管它的标题是“它绝不应该与那些与正统的禅宗佛教实践相关的大量事实信息联系在一起。对于摩托车来说,它也不是非常事实。 “

  

自1980年以来制造的大多数摩托车如果得到适当维护则相当可靠,但这是一个很大的问题。在某种程度上,当今摩托车的高可靠性已经成为许多车手的劣势。一些车手已经开始相信摩托车就像现代汽车并且基本上不需要维护。事实并非如此(即使使用汽车)。现代自行车比60年代和70年代需要更少的维护,但它们仍需要比汽车更多的维护。这种更高的可靠性也意味着有一大批摩托车手不知道如何在他们的自行车上工作或者确实需要做些什么来确保可靠性。

我们得到以下分数:

{ "Cars" : 3, "Motorcycles" : 4, "Video Games" : 0 }

因此我们可以将网站归类为主要与“摩托车”相关。

请注意,我对类别名称说“其突变”,因此检测到“摩托车”或“汽车”。我们可以从中看出,您也应该考虑使用相关单词列表。例如,也许我们在搜索“摩托车”的实例时应该检测“摩托车手”这个词。也许我们也应该看到“现代自行车”。

您也可以保存这些匹配,或者将它们与其他一些数据合并,并使用贝叶斯概率来确定该网站最适合的类别。