标签: python numpy scikit-learn text-processing
我正在尝试使用scikit-learn的TfidfVectorizer和最近邻算法进行一些文本分类。
我需要在两个数据集之间找到相似度量,每个数据集包含18000个条目。我不确定哪种数据结构可以最好地用于计算我认为应该是18000 * 18000相似性指标的内容。
到目前为止,我只考虑了DataFrame。
答案 0 :(得分:0)
如果您不需要任何中间数据进行进一步分析,您可以使用生成器来保存数据点,然后通过生成器调用运行算法。否则你可能想要一个清单。