在PySpark中以最有效的方式添加tf-idf特征向量

时间:2018-12-07 09:45:19

标签: python apache-spark pyspark apache-spark-mllib

我是PySpark的新手。我试图按照this Kaggle内核中的描述来实现/重写NB-SVM模型。

为此,似乎我必须为响应的每个标签分别获取与标签1/0对应的sum of the tfidf vectors

我尝试过

p = data.filter(col('labels_temp') == 1).rdd.map(lambda x:(csc_matrix(x[-5]))).\
reduce(lambda x,y:(x+y))

p = data.filter(col('labels_temp') == 1).rdd.map(lambda x:(DenseVector(x[-5]))).\
reduce(lambda x,y:(x+y))

this答案中所述。

但是它们似乎运行都很慢。还有其他方法吗?

tfidf似乎有262144 columns957941 rows

感谢您的帮助。预先感谢。

0 个答案:

没有答案