应用错误收集

时间：2020-07-28 13:08:48

标签： python cross-validation word2vec evaluation

我正在研究一个项目，以发现产品之间的相似性。该模型将excel数据表分为90％训练/ 10％验证。当我手动检查验证模型时，效果很好。但是我在评估过程中遇到了麻烦。我应该如何找到准确性，准确性，召回率和F1得分，以了解我的模型的运作情况？

我是机器学习的新手，还在学习中，请给我一些从哪里开始的线索。

答案 0 :(得分：2)

Word2vec是一种被认为是“无监督”的算法-它没有使用指定的“正确”答案进行训练，而是从任何数据的模式中学习。结果，没有“精确性”，“精度”等原语到word2vec的概念，这些概念仅与一组所需的答案有关。

因此，要计算这些值，您必须在其他下游任务中使用这些字向量，并为该下游任务设计自己的评估。然后，您可以计算整个系统的精度和其他值（包括word2vec步骤）。这可能包括应用您或其他审阅者对某些情况下结果“应”的判断。

在没有任何数据示例的情况下，尚不清楚Word2Vec模型的工作方式以及产品的表示方式。（您创建的customers_train列表中的各个项目是什么？产品名称/标识符从哪里来？您需要执行哪些相似性问题或最终用户操作？）