用于文档分类的NLP技术?

时间:2015-09-24 00:49:39

标签: nlp document-classification part-of-speech

我想知道是否有任何NLP技术用于文档分类。我想知道来自词性标注的n-gram的统计数据是否有用?我似乎无法在关于这个主题的文献中找到太多。

是否有人发现任何增强其文档分类工作的nlp技术?如果你知道关于这个主题的任何调查都很棒。

请注意。我看到了this question,但我的语料库太大了,无法解决那里唯一的实用问题。

1 个答案:

答案 0 :(得分:3)

引用:

  

但我的语料库太大了,无法找到唯一的解决方案   实用。

主题建模!

文档分类在我们的研究小组和其他NLP小组中是一个非常热门的话题。我们主要关注的是概率主题建模。主题模型是一系列算法,目的是在大型文档档案中发现隐藏的主题结构以进行分类。令人兴奋的是,创新,发明和一般改进都有很大的空间。大量的工作,如合奏,混合和其他统计技术。

斯坦福自然语言处理小组有一个免费的开源工具,用于对主题模型进行原型设计,称为Stanford Topic Modelling Toolbox。我建议你看一下。

一个起点(可能?)