我正面临使用Python jupyter笔记本环境为Sindhi语言开发NLTK停用词的问题。信德语就像阿拉伯语。我请求帮助我,我可以开发NLTK Sindhi停止和阻止词汇进行聚类和分析
答案 0 :(得分:1)
您应首先开发词干分析器,因为您可以使用它来帮助您自动开发停用词列表。为了帮助您开发词干分析器,请使用我的Martin Porter开发的Snowball系统,这是Porter词干分析器的发明者,这是英语中使用最广泛的词干分析器。
一旦你拥有了你的词干分析器,你就可以通过挖掘文本语料库并利用Zipf法则自动开发禁用词列表。算法是:
四种流行的术语频率测量(搜索这些)是:
最近的研究集中在使用Kullback-Leibler分歧度量作为一个词的信息量的指示(信息量较少=更可能是一个禁用词)。您可能想要对此进行调查。