我知道如何通过Weka对文本进行分类,我可以在Weka GUI中插入文本文件夹并尝试不同的算法,如果其中一个文本对某个主题是正面/负面的话,它可以告诉我。
现在我需要不同的东西,我想构建一个应用程序,当用户插入单个文本文件时,告诉文本的主题。
Weka有没有可能做到这一点?如果有人愿意给我一个提示,我将非常高兴。
答案 0 :(得分:2)
你必须使用Weka吗?如果没有,还有其他良好的文本分类系统,可以进行主题分类的开放/免费访问。我建议您尝试Open Calais,可以下载或使用网络服务。
答案 1 :(得分:1)
“主题”是什么意思?这是一个非常广泛的概念,但在大多数情况下,它只是有限的一组可能的文本类别,如“科学”,“运动”等,你可以称之为C
,并视为监督分类问题,就像你会做“积极/消极”分类。关于分类到多个类别没有什么特别之处。但是你仍然需要为每个类别提供一套训练。
总结一下 - 您可以使用与二进制分类完全相同的方式使用WEKA,只需使用更多标签进行分类(如果您的类别是mutualy独占的,即没有一个文本是关于“科学”和“运动” )或创建|C|
二进制分类器,如果您的文本可以是任何类别子集的一部分(这更合理,因为文档通常介于“某些主题之间”)并简单地回答您的类别集相应的分类器回答“是”(肯定)。
如果你想以无人监督的方式做这件事(没有训练集),那么通过某种文本摘要/主题建模技术实际建模主题会更加复杂,据我所知,这些技术没有实现在WEKA。事实上,据我所知,这种方法还不够成熟,无法谈论任何“好”的解决方案 - 这些解决方案的研究领域很多,有很多方法和不同的结果。