使用一个"多数主题建立语料库的主题"和几个少数民族话题"

时间:2015-03-20 15:42:00

标签: machine-learning artificial-intelligence topic-modeling text-classification document-classification

我有一组文档,其中大部分是关于同一主题的,其余的基本上都是随机主题。我希望将这些文件归类为是关于“多数主题”还是其中一个随机的“少数主题”。如果我在这个语料库中使用主题建模算法只有2个主题,会发生什么?虽然“少数民族话题”可能与彼此没有多少相似之处,但是语料库是否会被划分为“多数主题”和“少数主题”?

1 个答案:

答案 0 :(得分:2)

您可以使用MonkeyLearn。

您可以创建一个包含两个主题的自定义分类器:“多数主题”和“少数主题”。您必须在每个类别上添加一些培训样本,以便MonkeyLearn可以学习预测每个类别。

训练分类器后,可以通过其API将其与任何编程语言集成。

您可以在此免费试用MonkeyLearn:http://www.monkeylearn.com

如果您有任何疑问,请在此发表评论或发送电子邮件至hello@monkeylearn.com,我随时为您提供帮助。

干杯,

费德里科