我目前正在为104
布尔功能的某些训练数据拟合Support Vector Machine模型,因此我使用SparseVector
作为功能,例如(为了便于阅读,我将其显示为DataFrame
,但事实上它只是RDD
):
+--------------------+-----+
| features|label|
+--------------------+-----+
|(104,[11,44,76,96...| 0.0|
|(104,[11,47,60,96...| 1.0|
|(104,[14,47,60,96...| 0.0|
|(104,[4,44,72,96]...| 1.0|
+--------------------+-----+
我遇到的问题是SparkShell
显示数百万个数字(例如下面的数字),我认为这种打印会降低应用程序的性能,所以我该如何关闭它?是什么产生了这个?
0 104
1 104
2 104
3 104
0 104
1 104
2 104
3 104
0 104
1 104
2 104
3 104
0 104
1 104
2 104
3 104
0 104
[Stage 494:========> (5 + 4) / 32]
实际上,加载箭头显示在流程结束时。此外,其他模型如LogisticRegression
答案 0 :(得分:1)
在你的pyspark shell中试试这3行:
logger = sc._jvm.org.apache.log4j
logger.LogManager.getLogger("org"). setLevel( logger.Level.ERROR )
logger.LogManager.getLogger("akka").setLevel( logger.Level.ERROR )
如果你想要更多的输出,那么ERROR可能是WARN