我是NLP算法的新手。我用法语用python 3工作。 我想从属于一起的文本中提取一组单词。例如"左脚" "一瓶水"。 我怎样才能找到一条从文本/句子中提取一组单词的规则。
(ps:我是法国人,很抱歉,如果我不能表达自己的话)
谢谢
答案 0 :(得分:0)
您可以使用Gensim Phrase (collocation) detection查找句子中的常用短语(2个单词短语或3个单词短语),例如:
bigram = Phraser(phrases)
sent = [u'the', u'mayor', u'of', u'new', u'york', u'was', u'there']
print(bigram[sent])
Output: [u'the', u'mayor', u'of', u'new_york', u'was', u'there']
请注意纽约这个词。
要查找2个单词是否相似,您可以为它们计算单词向量并计算余弦相似度,请查看Gensim文档
法语外观预先训练的单词向量on this repository
祝你好运)