我将基于LDA的内容分类为通用主题,如音乐,科技,艺术,科学
这是我正在使用的过程
9个主题 - > 音乐,技术,艺术,科学 等。
9个文件 - > Music.txt , Technology.txt , Arts.txt , Science.txt 等等。
我已经在每个文档(.txt文件)中填写了大约10,000行的内容,我认为是#34; pure"分类内容
然后我对测试文档进行分类,以了解分类器的训练程度
我的问题是,
a。)这是一种有效的文本分类方法(使用上述步骤)吗?
b。)我应该在哪里寻找"纯粹的"用于填充这些文件的主题内容?来源不是太大(文本数据> 1GB)
分类仅适用于" generic"主题如上
答案 0 :(得分:1)
a)您描述的方法听起来不错,但一切都取决于您正在使用的标记LDA的实现。我所知道的最好的实现之一是Stanford Topic Modeling Toolbox。它不再被积极开发,但是当我使用它时效果很好。
b)您可以在DBPedia上查找主题内容,其中包含主题/实体的结构化本体,以及有关这些主题/实体的维基百科文章的链接。
答案 1 :(得分:1)
我建议你为你正在使用的每个班级使用词袋(弓)。或者向量,其中每列是与您要定位的类相关的重要关键字的频率。
关于字典,您将DBPedia视为yves或WordNet。
答案 2 :(得分:0)
a。)最简单的解决方案肯定是 k-最近邻算法(knn)。实际上,它会使用重叠指标对带有分类内容的新文本进行分类。
您可以在此处找到资源:https://github.com/search?utf8=✓&q=knn+text&type=Repositories&ref=searchresults