在非英语语言中实现Word2Vec?

时间:2017-03-08 16:44:30

标签: nlp nltk wordnet stemming lemmatization

是否可以使用不像乌尔都语,泰米尔语等英语字母的语言实现Word2Vec模型?如果是这样,有人可以建议我一条路。

1 个答案:

答案 0 :(得分:2)

是的,我认为这应该是可能的,前提是你的语言有一个标记器(即分词器),如果你的数据很少,并且想要用一些基本形式表示替换变形的单词形式,那么可能是一个变形器或词干分析器。

这是在Python中使用gensim训练模型的基本示例:

from gensim import models

training_corpus = "corpus.txt"

with open(training_corpus,'r') as f:
    plain_text = f.read()

sentences = plain_text.split("\n")  # Assume one sentence per line
tokenized = []

for sentence in sentences:
    # White-space-based word splitting, replace with a better tokenizer
    tokens = sentence.strip().lower().split(" ")
    tokenized.append(tokens)

# Train your model, see gensim documentation for parameters
model = models.Word2Vec(tokenized, min_count=3, size=50)