Bigrams和trigrams

时间:2018-05-02 10:02:48

标签: python topic-modeling

我目前正在尝试使用this Notebook作为我的参考,创建双字母组合和三元组以重新创建我的语料库,从单词到单词和短语。但是,我认为应该从代码中产生的短语没有被编译。

以下是我正在使用的代码:

unigram_sentences = LineSentence("*.csv")                        

for unigram_sentence in it.islice(unigram_sentences, 1, 5):
print (u' '.join(unigram_sentence))
print (u'')  

intermediate_directory = os.path.join('.../2015/TEMP') 
bigram_model_filepath = os.path.join(intermediate_directory,'bigram_model_all')               


%%time

bigram_model = Phrases(unigram_sentences)
bigram_model.save(bigram_model_filepath)

# load the finished model from disk  

bigram_model = Phrases.load(bigram_model_filepath) 
bigram_sentences_filepath = os.path.join(intermediate_directory,
                                     'bigram_sentences_all.txt')      
%%time                                                              

with codecs.open(bigram_sentences_filepath, 'w', encoding='utf_8') as f:

    for unigram_sentence in unigram_sentences:

        bigram_sentence = u' '.join(bigram_model[unigram_sentence])

        f.write(bigram_sentence + '\n')                 

bigram_sentences = LineSentence(bigram_sentences_filepath)           

for bigram_sentence in it.islice(bigram_sentences, 1, 5):
print (u' '.join(bigram_sentence))
print (u'')

实际上我的Ins(unigram句子)是:

  • 是的,但自我伤害焦虑抑郁症属于心理健康
  • 他们在提出之前更好地提醒县级心理健康 咸在空中
  • bbc新闻膏药让人心灵上升 健康急救
  • 今天早上通过玩耍修复了我的奇怪心情 化妆hshtg_makeup hshtg_charlottetilbury hshtg_mentalhealth

虽然我的出局(双字母句子)是:

  • 是的,但自我焦虑抑郁症属于心理健康
  • 他们在将咸味放在空中之前更好地提醒县级心理健康
  • bbc_news plasters_for the mental the_rise in mental health first_aid
  • 今天早上通过化妆来修复我的怪异心情hshtg_makeup hshtg_charlottetilbury hshtg_mentalhealthList item

虽然代码确实结合了诸如bbc_news和the_rise之类的短语,但我真正期望的是看到mental_health被组合在一起。

问题:我做错了什么? :/

感谢您的帮助,并为一个混乱的第一次定时发布道歉!

Alina

0 个答案:

没有答案