在python中有任何更好的预处理库或实现吗?

时间:2012-04-23 13:12:39

标签: python preprocessor nlp data-mining web-mining

我需要预处理一些文本文档,以便我可以应用fcm e.t.c等分类技术和其他主题建模技术,如潜在的dirichlet分配e.t.c

为了详细说明预处理,我需要删除停用词,提取名词和关键词并执行词干。我用于此目的的代码是:

#--------------------------------------------------------------------------
#Extracting nouns
#--------------------------------------------------------------------------
for i in range (0,len(a)) :
    x=a[i]          
    text=nltk.pos_tag(nltk.Text(nltk.word_tokenize(x)))
    for noun in text:
        if(noun[1]=="NN" or noun[1]=="NNS"):
            temp+=noun[0]
            temp+=' '
documents.append(temp)
print documents

#--------------------------------------------------------------------------
#remove unnecessary words and tags
#--------------------------------------------------------------------------

texts = [[word for word in document.lower().split() if word not in stoplist]for    document in documents]
allTokens = sum(texts, [])
tokensOnce = set(word for word in set(allTokens) if allTokens.count(word)== 0)
texts = [[word for word in text if word not in tokensOnce]for text in texts]
print texts

#--------------------------------------------------------------------------
#Stemming
#--------------------------------------------------------------------------

for i in texts:
    for j in range (0,len(i)):        
        k=porter.stem(i[j])
        i[j]=k
print texts

上面提到的代码的问题是

  1. 用于提取名词和关键字的nltk模块缺少很多单词。 例如,对某些文档执行了预处理,并且“Sachin”之类的名称未被识别为关键字,并且在预处理后丢失。
  2. 这些词语没有得到适当的遏制。有太多的词干(网络和网络网络),有些名词也被阻止。
  3. 是否有更好的模块用于所需的功能,或者是否有更好的相同模块实现? 请帮助

1 个答案:

答案 0 :(得分:2)

尝试模式,我非常喜欢它:http://www.clips.ua.ac.be/pages/pattern