python - Python NTL - 识别文本兴趣/主题

时间：2013-07-06 11:39:26

标签： python machine-learning classification nltk

我正在尝试构建一个模型，该模型将尝试识别所提供文本的兴趣类别/主题。例如：

“早些时候喜欢玩足球比赛。”

将解析为顶级类别，如：

“运动”。

我不确定我在这里尝试实现的正确术语是什么，因此Google没有找到任何可能提供帮助的库。考虑到这一点，我的方法将是：

我的方法可能涉及为每个兴趣类别设置单独的语料库，我确信准确性会相当悲惨 - 我知道它永远不会那么准确。

一般都在寻找一些关于我想要实现的可行性的建议，但问题的关键在于：a）我的方法是否正确？ b）是否有任何图书馆/资源可能有所帮助？

答案 0 :(得分：6)

你似乎知道很多正确的术语。尝试搜索“文档分类”。这是您要解决的一般问题。在代表语料库上训练的分类器将比您想象的更准确。

还有很多其他信息，包括有关此主题的在线教程：

答案 1 :(得分：4)

你应该查看Latent Dirichlet Allocation，它会为你提供没有标签的类别，因为ed chens bolg总是一个好的开始。