我创建了这个函数,它在推文中产生了两个单词的每个组合,包括双字母。例如,这条推文: " Facebook和阿里巴巴正在报告移动用户的惊人增长"
将被标记为:
['Facebook阿里巴巴','Facebook报道','Facebook令人兴奋','Facebook增加','Facebook手机','Facebook使用',' 阿里巴巴报告','阿里巴巴惊心动魄','阿里巴巴增加','阿里巴巴移动','阿里巴巴使用','报告令人兴奋','报告增加','报告移动','报告使用','头脑 - 吹'增加','令人兴奋的移动','令人兴奋的使用','增加移动','增加使用','移动使用']
功能是:
def mulibigramReturner (str_tweet_text,stopWords):
multibigramFeatureVector = []
list_str_words =getTokens( str_tweet_text,stopWords)
for item in itertools.combinations(list_str_words, 2):
multibigramFeatureVector.append(' '.join([item[0], item[1]]))
return multibigramFeatureVector
问题是计算频率在NLTK中找到一个函数,如BigramCollocationFinder和BigramAssocMeasures来计算频率并找到最佳组合作为后续分类过程的特征。你能给我一个提示来克服这个问题。