Python NTL - 识别文本兴趣/主题

时间:2013-07-06 11:39:26

标签: python machine-learning classification nltk

我正在尝试构建一个模型,该模型将尝试识别所提供文本的兴趣类别/主题。例如:

  “早些时候喜欢玩足球比赛。”

将解析为顶级类别,如:

  

“运动”。

我不确定我在这里尝试实现的正确术语是什么,因此Google没有找到任何可能提供帮助的库。考虑到这一点,我的方法将是:

  1. 从文本中提取要素。使用标记来对每个特征/标识名称/位置进行分类。可能会使用NTLK,或Topia。
  2. 为每个兴趣类别(“体育”,“视频游戏”,“政治”等)运行朴素贝叶斯分类器,并获得每个类别的相关性百分比。
  3. 确定哪个类别的准确率最高,并对文本进行分类。
  4. 我的方法可能涉及为每个兴趣类别设置单独的语料库,我确信准确性会相当悲惨 - 我知道它永远不会那么准确。

    一般都在寻找一些关于我想要实现的可行性的建议,但问题的关键在于:a)我的方法是否正确? b)是否有任何图书馆/资源可能有所帮助?

2 个答案:

答案 0 :(得分:6)

你似乎知道很多正确的术语。尝试搜索“文档分类”。这是您要解决的一般问题。在代表语料库上训练的分类器将比您想象的更准确。

  • (a)没有一种正确的做法。你概述的方法 但是,工作。
  • (b)Scikit Learn 这是一个很棒的图书馆。

还有很多其他信息,包括有关此主题的在线教程:

  • github上的这个Naive Bayesian Classifier可能已经完成了你想要完成的大部分工作。
  • NLTK tutorial深入解释了该主题。
  • 如果你真的想进入它,我相信Google学术搜索会在计算机科学和语言学方面发表数千篇关于这个主题的学术文章。

答案 1 :(得分:4)

你应该查看Latent Dirichlet Allocation,它会为你提供没有标签的类别,因为ed chens bolg总是一个好的开始。