如何将语言的主题划分为复杂性级别的存储桶?

时间:2018-12-03 05:26:49

标签: python nlp information-retrieval topic-modeling

问题陈述::将编程语言(例如JS)划分为主题。然后,根据概念的复杂性将主题分为三个类别:初学者,中级和高级。

示例:让我们将JavaScript作为我们要分为主题的目标语言。

步骤1。查找与语言本身相关的主题。 (类似于书作者如何构建目录)。现在,我们可以确定100个主题。

第2步。根据主题的相对复杂性将其分为多个存储桶。 (初级,中级和高级。)

第3步。后处理。

我们的解决方案:检索语言的整个文档并建立语料库。对于每一页,使用术语频率-反向文档频率(TF-IDF)找出关键字。这些关键字是我们的主题,假设文档首先讨论入门级主题,最后讨论高级主题,我们可以将它们按出现的顺序放入所需的存储桶中。

上述解决方案对我们来说效果不佳。任何想法或想法都会受到赞赏!

0 个答案:

没有答案