应用错误收集

时间：2009-10-29 14:59:29

标签： cluster-analysis

我正在从互联网上抓取数据，而不进行分类。

是否有推荐的图书馆？

修改

我正在从其他网站抓取工作，我需要将它们分组到不同的行业。

答案 0 :(得分：1)

要将未标记的数据分组，您需要群集，而不是分类。最完整的机器学习库是基于Java的Weka。您可能希望首先从网页中提取文本（完全删除脚本和样式元素，去除其他标记），然后在执行群集之前通过StringToWordVector过滤器运行文本。

答案 1 :(得分：0)

我现在的雇主开发了一个系统来对网页进行分类。我们找不到任何有用的库，所以我们必须自己做。我们不会许可我们的。

我可以给你一些提示。垃圾邮件分析器将电子邮件分类为垃圾邮件或非邮件垃圾邮件。您可以使用相同的工具（如贝叶斯，CRM-114等）对任何文本（包括网页）进行自己的分类。

您必须非常仔细地观察这些结果并给予他们很多的人工反馈。您经常可以找到能够很好地为您打分的关键字集。找到这些关键字集需要花费时间和精力，并且随着时间的推移会有所改变。

您必须编写代码将网页划分为主题部分，因为大多数页面都不是一件事。有广告框架，导航和其他东西。