寻找一个计算频率的函数,并选择推文的最佳单词组合

时间:2017-04-11 15:24:50

标签: python nltk itertools sentiment-analysis

我创建了这个函数,它在推文中产生了两个单词的每个组合,包括双字母。例如,这条推文: " Facebook和阿里巴巴正在报告移动用户的惊人增长"

将被标记为:

['Facebook阿里巴巴','Facebook报道','Facebook令人兴奋','Facebook增加','Facebook手机','Facebook使用',' 阿里巴巴报告','阿里巴巴惊心动魄','阿里巴巴增加','阿里巴巴移动','阿里巴巴使用','报告令人兴奋','报告增加','报告移动','报告使用','头脑 - 吹'增加','令人​​兴奋的移动','令人​​兴奋的使用','增加移动','增加使用','移动使用']

功能是:

   def mulibigramReturner (str_tweet_text,stopWords):


         multibigramFeatureVector = []
        list_str_words =getTokens( str_tweet_text,stopWords)

        for item in itertools.combinations(list_str_words, 2):
            multibigramFeatureVector.append(' '.join([item[0], item[1]]))
   return multibigramFeatureVector

问题是计算频率在NLTK中找到一个函数,如BigramCollocationFinder和BigramAssocMeasures来计算频率并找到最佳组合作为后续分类过程的特征。你能给我一个提示来克服这个问题。

0 个答案:

没有答案