Question

我目前正在为104布尔功能的某些训练数据拟合Support Vector Machine模型，因此我使用SparseVector作为功能，例如（为了便于阅读，我将其显示为DataFrame，但事实上它只是RDD）：

+--------------------+-----+
|            features|label|
+--------------------+-----+
|(104,[11,44,76,96...|  0.0|
|(104,[11,47,60,96...|  1.0|
|(104,[14,47,60,96...|  0.0|
|(104,[4,44,72,96]...|  1.0|
+--------------------+-----+

我遇到的问题是SparkShell显示数百万个数字（例如下面的数字），我认为这种打印会降低应用程序的性能，所以我该如何关闭它？是什么产生了这个？

0 104
1 104
2 104
3 104
0 104
1 104
2 104
3 104
0 104
1 104
2 104
3 104
0 104
1 104
2 104
3 104
0 104
[Stage 494:========>                                               (5 + 4) / 32]

实际上，加载箭头显示在流程结束时。此外，其他模型如LogisticRegression

也会发生这种情况

Answer 1

在你的pyspark shell中试试这3行：

logger = sc._jvm.org.apache.log4j
logger.LogManager.getLogger("org"). setLevel( logger.Level.ERROR )
logger.LogManager.getLogger("akka").setLevel( logger.Level.ERROR )

如果你想要更多的输出，那么ERROR可能是WARN

Pyspark shell输出多个数字而不是加载箭头

1 个答案: