LDA对文本分类的良好培训数据?

时间:2015-04-11 08:18:22

标签: machine-learning nlp classification text-classification document-classification

我将基于LDA的内容分类为通用主题,如音乐,科技,艺术,科学

这是我正在使用的过程

9个主题 - > 音乐技术艺术科学

9个文件 - > Music.txt Technology.txt Arts.txt Science.txt 等等。

我已经在每个文档(.txt文件)中填写了大约10,000行的内容,我认为是#34; pure"分类内容

然后我对测试文档进行分类,以了解分类器的训练程度

我的问题是,

a。)这是一种有效的文本分类方法(使用上述步骤)吗?

b。)我应该在哪里寻找"纯粹的"用于填充这些文件的主题内容?来源不是太大(文本数据> 1GB)

分类仅适用于" generic"主题如上

3 个答案:

答案 0 :(得分:1)

a)您描述的方法听起来不错,但一切都取决于您正在使用的标记LDA的实现。我所知道的最好的实现之一是Stanford Topic Modeling Toolbox。它不再被积极开发,但是当我使用它时效果很好。

b)您可以在DBPedia上查找主题内容,其中包含主题/实体的结构化本体,以及有关这些主题/实体的维基百科文章的链接。

答案 1 :(得分:1)

我建议你为你正在使用的每个班级使用词袋(弓)。或者向量,其中每列是与您要定位的类相关的重要关键字的频率。

关于字典,您将DBPedia视为yves或WordNet

答案 2 :(得分:0)

a。)最简单的解决方案肯定是 k-最近邻算法(knn)。实际上,它会使用重叠指标对带有分类内容的新文本进行分类。

您可以在此处找到资源:https://github.com/search?utf8=✓&q=knn+text&type=Repositories&ref=searchresults