我应该使用什么数据结构来处理大量文本数据?

时间:2016-09-06 01:16:49

标签: python numpy scikit-learn text-processing

我正在尝试使用scikit-learn的TfidfVectorizer和最近邻算法进行一些文本分类。

我需要在两个数据集之间找到相似度量,每个数据集包含18000个条目。我不确定哪种数据结构可以最好地用于计算我认为应该是18000 * 18000相似性指标的内容。

到目前为止,我只考虑了DataFrame。

1 个答案:

答案 0 :(得分:0)

如果您不需要任何中间数据进行进一步分析,您可以使用生成器来保存数据点,然后通过生成器调用运行算法。否则你可能想要一个清单。