NLP提取关联词

时间:2018-02-22 15:06:05

标签: python-3.x machine-learning nlp

我是NLP算法的新手。我用法语用python 3工作。 我想从属于一起的文本中提取一组单词。例如"左脚" "一瓶水"。 我怎样才能找到一条从文本/句子中提取一组单词的规则。

(ps:我是法国人,很抱歉,如果我不能表达自己的话)

谢谢

1 个答案:

答案 0 :(得分:0)

您可以使用Gensim Phrase (collocation) detection查找句子中的常用短语(2个单词短语或3个单词短语),例如:

bigram = Phraser(phrases)
sent = [u'the', u'mayor', u'of', u'new', u'york', u'was', u'there']
print(bigram[sent])
Output: [u'the', u'mayor', u'of', u'new_york', u'was', u'there']

请注意纽约这个词。

要查找2个单词是否相似,您可以为它们计算单词向量并计算余弦相似度,请查看Gensim文档

法语外观预先训练的单词向量on this repository

祝你好运)