分类网站 - 开源LSI?

时间:2010-03-24 18:17:18

标签: web lexical-analysis categorization latent-semantic-indexing

我希望对很多网站进行分类(数百万)。我可以使用Nutch抓取它们并获取网站的内容,但我正在寻找最好的(也是最便宜或免费的)工具来对它们进行分类。

一种选择是创建寻找特定关键字并对网站进行分类的正则表达式,但也有一些高端LSI类型工具,如Autonomy。是否有任何开源或更便宜的工具可以从网页/网站上获取文本并为我分类?我需要对所用类别的类型进行一些自定义。作为分类的一部分,我希望能够识别真正只是停放页面的“假”网站,或者在网页上放置广告的域名广告,以及只是简单的旧类别,例如此新闻,体育,科学,健康,食物,娱乐等...

0 个答案:

没有答案