如何确定给定文档(文本)的主题?

时间:2013-10-14 15:03:41

标签: machine-learning nlp data-mining classification weka

我知道如何通过Weka对文本进行分类,我可以在Weka GUI中插入文本文件夹并尝试不同的算法,如果其中一个文本对某个主题是正面/负面的话,它可以告诉我。

现在我需要不同的东西,我想构建一个应用程序,当用户插入单个文本文件时,告诉文本的主题。

Weka有没有可能做到这一点?如果有人愿意给我一个提示,我将非常高兴。

2 个答案:

答案 0 :(得分:2)

你必须使用Weka吗?如果没有,还有其他良好的文本分类系统,可以进行主题分类的开放/免费访问。我建议您尝试Open Calais,可以下载或使用网络服务。

答案 1 :(得分:1)

“主题”是什么意思?这是一个非常广泛的概念,但在大多数情况下,它只是有限的一组可能的文本类别,如“科学”,“运动”等,你可以称之为C,并视为监督分类问题,就像你会做“积极/消极”分类。关于分类到多个类别没有什么特别之处。但是你仍然需要为每个类别提供一套训练。

总结一下 - 您可以使用与二进制分类完全相同的方式使用WEKA,只需使用更多标签进行分类(如果您的类别是mutualy独占的,即没有一个文本是关于“科学”和“运动” )或创建|C|二进制分类器,如果您的文本可以是任何类别子集的一部分(这更合理,因为文档通常介于“某些主题之间”)并简单地回答您的类别集相应的分类器回答“是”(肯定)。

如果你想以无人监督的方式做这件事(没有训练集),那么通过某种文本摘要/主题建模技术实际建模主题会更加复杂,据我所知,这些技术没有实现在WEKA。事实上,据我所知,这种方法还不够成熟,无法谈论任何“好”的解决方案 - 这些解决方案的研究领域很多,有很多方法和不同的结果。