pandas - 熊猫大火

我有220GB的数据。我已经将其读入spark数据帧中为2列：JournalID和Text。现在我的数据框中有27个缺少行。

对于NGram类，我在数据框中添加了两列Unigram和Bigram，其中包含Text列中存在的unigram和bigrams。然后，我使用pyspark的TF和IDF类在unigram和bigram列上计算TFIDF，并将其添加为dataframe中的另外一列。

现在，对于数据帧中的每一行，我都有journalID和TFIDF向量。我想将SVM与所有类型的内核一起应用，其中TFIDF向量作为特征，JournalID作为标签。由于SVM在pyspark的ML软件包中不存在，因此我将不得不使用Sklearn的SVM实现。现在，什么是继续进行下去的最佳方法。我应该将这个大数据框转换为熊猫数据框，然后在熊猫数据框的列上应用sklearn算法，还是有更好的方法。

熊猫大火

1 个答案: