应用错误收集

我正在构建一个推荐系统，我的主要目标是根据用户论文的标题和摘要来推荐一个会议发布场所。这是系统应该工作的方式

现在我的问题是

如何评估这种类型的技术，因为它没有任何实际分数的先验信息。如果我使用精度并回想起假阳性和假阴性是什么？直到现在我都使用相似性阈值，即，如果场地高于0.4分，它将是有意义的，否则它将是无关紧要的吗？这种评估方法正确吗？