标签: dataset corpus tf-idf cosine-similarity
我想比较TF-IDF,Vector模型和TF-IDF算法的一些优化。 为此我需要一个数据集(至少100个英文文本)。我找不到一个。有什么建议 ?
答案 0 :(得分:0)
这取决于您使用TF-IDF的应用程序。例如,如果要查找关键字,可以使用“Mendely”数据集或使用“Delicious”数据进行标记。