如何测量另一种语言训练的Word2vec模型的准确性?

时间:2019-01-20 14:18:14

标签: gensim word2vec

我已经训练了word2vec模型,该模型不是针对英语,而是针对亚洲语言“僧伽罗语”。在后面的阶段中,我将使用这个训练有素的模型来获取句子的相似性,以检测僧伽罗语文件中的抄袭行为。 请向我解释如何衡量训练模型的准确性。我是一名大学生。我以前对这些东西一无所知。

1 个答案:

答案 0 :(得分:1)

没有对word2vec模型质量或“准确性”的通用度量。

通常报告的“准确性”通常基于Google在原始word2vec论文中使用的一组英语类比问题(并包括在其源代码版本中)。参见例如:

https://github.com/tmikolov/word2vec/blob/master/questions-words.txt

要对另一种语言进行类似的计算,您需要为该种语言提供一套相似的评估问题。我不知道针对僧伽罗语或其他语言的此类问题的任何集合,因此您可能必须自己找到或创建它。 (您可以使用相同的格式创建一个备用文件,并使用现有的评估方法,指定您的备用文件。)