应用错误收集

我应该使用什么数据结构来处理大量文本数据？

时间：2016-09-06 01:16:49

标签： python numpy scikit-learn text-processing

我正在尝试使用scikit-learn的TfidfVectorizer和最近邻算法进行一些文本分类。

我需要在两个数据集之间找到相似度量，每个数据集包含18000个条目。我不确定哪种数据结构可以最好地用于计算我认为应该是18000 * 18000相似性指标的内容。

到目前为止，我只考虑了DataFrame。

1 个答案:

答案 0 :(得分：0)

如果您不需要任何中间数据进行进一步分析，您可以使用生成器来保存数据点，然后通过生成器调用运行算法。否则你可能想要一个清单。