如何应用nltk对问题进行分类

时间:2015-03-12 12:30:17

标签: python nlp data-mining text-mining text-classification

我在从在线网站提取的文本文件中有一个问题列表。我是nltk的新手(在Python中)并经历了(http://http://shop.oreilly.com/product/9780596516499.do)的初始章节。请有人帮助我根据不同的标题对我的主题进行分类。 我不知道问题的标题。那么,如何创建标题并进行分类呢?

1 个答案:

答案 0 :(得分:0)

您的任务包括document clustering,其中每个问题都是一个文档,cluster labeling,其中label指定主题。 请注意,如果您的问题很短且/或难以分离,例如属于类似的类别,那么质量不会那么高。

请查看simple recipe,了解文档群集及相关问题firstsecond

作为标签的基线,请尝试使用群集字或质心中的max tf-idf字。