我对文本挖掘感兴趣,所以最近我使用与Shingling的jaccard相似系数来测量输入信息(例如:Actimel Strawberry Yogurt Drink)和数据集中的数千条记录之间的相似性。我按相似度分数对结果进行了排名。这些是结果。
但我想知道这个jaccard指标是否适合我的措施,所以我将使用精确召回。我对精确召回曲线的了解如下:
precison = tp / tp + fp,recall = tp / tp + fn
我查了scikitlearn.org,似乎使用了分类器,我不知道究竟是什么y_test(我猜它是分类器的测试数据) 我怎样才能画出这种情节。