我正在从互联网上抓取数据,而不进行分类。
是否有推荐的图书馆?
修改
我正在从其他网站抓取工作,我需要将它们分组到不同的行业。
答案 0 :(得分:1)
要将未标记的数据分组,您需要群集,而不是分类。最完整的机器学习库是基于Java的Weka。您可能希望首先从网页中提取文本(完全删除脚本和样式元素,去除其他标记),然后在执行群集之前通过StringToWordVector过滤器运行文本。
答案 1 :(得分:0)
我现在的雇主开发了一个系统来对网页进行分类。我们找不到任何有用的库,所以我们必须自己做。我们不会许可我们的。
我可以给你一些提示。垃圾邮件分析器将电子邮件分类为垃圾邮件或非邮件垃圾邮件。您可以使用相同的工具(如贝叶斯,CRM-114等)对任何文本(包括网页)进行自己的分类。
您必须非常仔细地观察这些结果并给予他们很多的人工反馈。您经常可以找到能够很好地为您打分的关键字集。找到这些关键字集需要花费时间和精力,并且随着时间的推移会有所改变。
您必须编写代码将网页划分为主题部分,因为大多数页面都不是一件事。有广告框架,导航和其他东西。