我在从在线网站提取的文本文件中有一个问题列表。我是nltk的新手(在Python中)并经历了(http://http://shop.oreilly.com/product/9780596516499.do)的初始章节。请有人帮助我根据不同的标题对我的主题进行分类。 我不知道问题的标题。那么,如何创建标题并进行分类呢?
答案 0 :(得分:0)
您的任务包括document clustering,其中每个问题都是一个文档,cluster labeling,其中label指定主题。 请注意,如果您的问题很短且/或难以分离,例如属于类似的类别,那么质量不会那么高。
请查看simple recipe,了解文档群集及相关问题first和second。
作为标签的基线,请尝试使用群集字或质心中的max tf-idf字。