如何在训练分类器时自动标记主题

时间:2012-11-06 18:25:31

标签: classification

需要一些关于如何在训练分类器时自动标记主题的想法。我的数据集是abt 50000文本&需要为每个主题分配预定义的主题,有没有自动执行此操作?

2 个答案:

答案 0 :(得分:1)

如果您可以自动执行此操作,那么为什么还需要分类器?

所以答案是:如果你真的想要生成地面实况数据,就没有自动方式。

如果可能,您应该查找预先准备好的标记数据集。否则,您将手动标记所有数据,抱歉。

答案 1 :(得分:0)

您需要为分类器提供一些培训数据,这是您的意思吗?

我最近遇到了同样的问题,所以我最终做的是我得到了一个类别和子类别的简单列表,我对这些进行了迭代,并尝试自动为每个文章提取维基百科文章。

对于类别分类法本身,请查看http://rdf.dmoz.org/rdf/,其中有一个categories.txt文件,您可以将其删除到所需的级别数。 (我使用了两个级别,所以只有类别和直接子类别)

对于文章提取,你可以使用Goose,这是一个非常容易使用的Python库,它可以提取文档的HTML并从中删除主文章主体。

由于我遇到了完全相同的事情,我创建了一个小脚本来完成所有这些,请查看here