需要一些关于如何在训练分类器时自动标记主题的想法。我的数据集是abt 50000文本&需要为每个主题分配预定义的主题,有没有自动执行此操作?
答案 0 :(得分:1)
如果您可以自动执行此操作,那么为什么还需要分类器?
所以答案是:如果你真的想要生成地面实况数据,就没有自动方式。
如果可能,您应该查找预先准备好的标记数据集。否则,您将手动标记所有数据,抱歉。
答案 1 :(得分:0)
您需要为分类器提供一些培训数据,这是您的意思吗?
我最近遇到了同样的问题,所以我最终做的是我得到了一个类别和子类别的简单列表,我对这些进行了迭代,并尝试自动为每个文章提取维基百科文章。
对于类别分类法本身,请查看http://rdf.dmoz.org/rdf/,其中有一个categories.txt文件,您可以将其删除到所需的级别数。 (我使用了两个级别,所以只有类别和直接子类别)
对于文章提取,你可以使用Goose,这是一个非常容易使用的Python库,它可以提取文档的HTML并从中删除主文章主体。
由于我遇到了完全相同的事情,我创建了一个小脚本来完成所有这些,请查看here。