我想通过sparklyr使用Spark来处理成千上万的列,但我不能

时间:2018-02-21 09:32:08

标签: r spark-dataframe sentiment-analysis sparklyr

我尝试使用sdf_pivot()扩展我的列,将重复值扩展为多个(非常大的数字)列。我计划使用这些列作为训练ML模型的特征空间。

示例:我在一列(单词)中有一个语言元素序列,我希望将其变成一个巨大宽度的二进制矩阵(比如100,000)并使用逻辑回归运行情感分析。

第一个问题是默认情况下sparklyr不允许我制作超过10K的列,并在我的设计中引用了可能的eeror。

第二个问题是即使我覆盖了这个警告并制作了很多列,进一步的计算也会永远存在于这个非常广泛的数据上。

问题1:制作超宽数据集是一种很好的做法,或者我应该使用不同的深度特征空间,同时使用Spark的快速并行计算功能?

问题2:是否可以构建矢量类型特征列,避免生成非常宽的矩阵?

我只需要一个小例子或实用技巧即可。

https://github.com/rstudio/sparklyr/issues/1322

0 个答案:

没有答案