标签: hadoop apache-spark
我使用input = sc.wholeTextFiles(hdfs://path/*)在Spark中加载大约200,000个文本文件 然后我运行println(input.count) 事实证明,我的火花壳输出了大量的文本(这是每个文件的路径),过了一会儿,它只是挂起而没有返回我的结果。
input = sc.wholeTextFiles(hdfs://path/*)
println(input.count)
我认为这可能是由wholeTextFiles输出的文字数量所致。你知道以任何方式静默运行这个命令吗?还是有更好的解决方法?
wholeTextFiles
谢谢!
答案 0 :(得分:1)
您的文件有多大? 来自wholeTextFiles API:
首选小文件,也允许使用大文件 导致表现不佳。
在conf/log4j.properties中,您可以抑制过多的日志记录,如下所示:
conf/log4j.properties
# Set everything to be logged to the console log4j.rootCategory=ERROR, console
这样,您只能res返回 repl ,就像在Scala(语言) repl 中一样。
res
以下是您可以使用的所有其他日志记录级别:log4j API。