我想知道是否有任何NLP技术用于文档分类。我想知道来自词性标注的n-gram的统计数据是否有用?我似乎无法在关于这个主题的文献中找到太多。
是否有人发现任何增强其文档分类工作的nlp技术?如果你知道关于这个主题的任何调查都很棒。
请注意。我看到了this question,但我的语料库太大了,无法解决那里唯一的实用问题。
答案 0 :(得分:3)
引用:
但我的语料库太大了,无法找到唯一的解决方案 实用。
主题建模!
文档分类在我们的研究小组和其他NLP小组中是一个非常热门的话题。我们主要关注的是概率主题建模。主题模型是一系列算法,目的是在大型文档档案中发现隐藏的主题结构以进行分类。令人兴奋的是,创新,发明和一般改进都有很大的空间。大量的工作,如合奏,混合和其他统计技术。
斯坦福自然语言处理小组有一个免费的开源工具,用于对主题模型进行原型设计,称为Stanford Topic Modelling Toolbox。我建议你看一下。
一个起点(可能?)