开发NLTK停止词语,为信德语言提供词语和词袋

时间:2017-02-13 19:30:09

标签: python nlp nltk

我正面临使用Python jupyter笔记本环境为Sindhi语言开发NLTK停用词的问题。信德语就像阿拉伯语。我请求帮助我,我可以开发NLTK Sindhi停止和阻止词汇进行聚类和分析

1 个答案:

答案 0 :(得分:1)

您应首先开发词干分析器,因为您可以使用它来帮助您自动开发停用词列表。为了帮助您开发词干分析器,请使用我的Martin Porter开发的Snowball系统,这是Porter词干分析器的发明者,这是英语中使用最广泛的词干分析器。

一旦你拥有了你的词干分析器,你就可以通过挖掘文本语料库并利用Zipf法则自动开发禁用词列表。算法是:

  1. 从语料库
  2. 生成词干术语频率列表
  3. 按降序对它们排序并对它们进行排名
  4. 绘制频率图 - 它应遵守Zipf定律
  5. 选择一个阈值并将超过该阈值的任何单词视为 停用词
  6. 使用一组停用词查询系统并评估准确度
  7. 根据需要重复
  8. 四种流行的术语频率测量(搜索这些)是:

    • 期限频率(TF)
    • 标准化术语频率
    • 反文档频率(IDF)
    • 规范化逆文档频率

    最近的研究集中在使用Kullback-Leibler分歧度量作为一个词的信息量的指示(信息量较少=更可能是一个禁用词)。您可能想要对此进行调查。