应用错误收集

时间：2019-01-20 14:18:14

标签： gensim word2vec

我已经训练了word2vec模型，该模型不是针对英语，而是针对亚洲语言“僧伽罗语”。在后面的阶段中，我将使用这个训练有素的模型来获取句子的相似性，以检测僧伽罗语文件中的抄袭行为。请向我解释如何衡量训练模型的准确性。我是一名大学生。我以前对这些东西一无所知。

答案 0 :(得分：1)

没有对word2vec模型质量或“准确性”的通用度量。

通常报告的“准确性”通常基于Google在原始word2vec论文中使用的一组英语类比问题（并包括在其源代码版本中）。参见例如：

要对另一种语言进行类似的计算，您需要为该种语言提供一套相似的评估问题。我不知道针对僧伽罗语或其他语言的此类问题的任何集合，因此您可能必须自己找到或创建它。（您可以使用相同的格式创建一个备用文件，并使用现有的评估方法，指定您的备用文件。）