是否可以使用不像乌尔都语,泰米尔语等英语字母的语言实现Word2Vec模型?如果是这样,有人可以建议我一条路。
答案 0 :(得分:2)
是的,我认为这应该是可能的,前提是你的语言有一个标记器(即分词器),如果你的数据很少,并且想要用一些基本形式表示替换变形的单词形式,那么可能是一个变形器或词干分析器。
这是在Python中使用gensim训练模型的基本示例:
from gensim import models
training_corpus = "corpus.txt"
with open(training_corpus,'r') as f:
plain_text = f.read()
sentences = plain_text.split("\n") # Assume one sentence per line
tokenized = []
for sentence in sentences:
# White-space-based word splitting, replace with a better tokenizer
tokens = sentence.strip().lower().split(" ")
tokenized.append(tokens)
# Train your model, see gensim documentation for parameters
model = models.Word2Vec(tokenized, min_count=3, size=50)