我是PySpark的新手。我试图按照this Kaggle内核中的描述来实现/重写NB-SVM模型。
为此,似乎我必须为响应的每个标签分别获取与标签1/0对应的sum of the tfidf vectors
。
我尝试过
p = data.filter(col('labels_temp') == 1).rdd.map(lambda x:(csc_matrix(x[-5]))).\
reduce(lambda x,y:(x+y))
和
p = data.filter(col('labels_temp') == 1).rdd.map(lambda x:(DenseVector(x[-5]))).\
reduce(lambda x,y:(x+y))
如this答案中所述。
但是它们似乎运行都很慢。还有其他方法吗?
tfidf似乎有262144 columns
和957941 rows
。
感谢您的帮助。预先感谢。