如何在调用Spark SaveAsTextFile方法

时间:2015-07-20 16:22:08

标签: hadoop apache-spark hive spark-streaming

我是Spark,Hadoop以及所有相关内容的新手。我的全球需求是构建一个实时应用程序,以获取推文并将其存储在HDFS上,以便基于HBase构建报告。

我想在调用saveAsTextFile RRD方法时获取生成的文件名,以便将其导入Hive。

请提前询问进一步的信息和感谢。

2 个答案:

答案 0 :(得分:1)

saveAsTextFile将创建一个序列文件目录。因此,如果您给它路径“hdfs:// user / NAME / saveLocation”,将创建一个名为saveLocation的文件夹,其中包含序列文件。您只需将目录名称传递给HBase即可将其加载到HBase中(有序文件是Hadoop中的标准文件)。

我建议您将保存视为镶木地板,但它们比标准文本文件更有用。

答案 1 :(得分:0)

根据我的理解,您将推文保存到hdfs,现在想要保存这些文件的文件名。如果我错了,请纠正我

val filenames=sc.textfile("Your hdfs location where you saved your tweets").map(_._1)

这会为您提供一系列rdd到 文件名 ,您可以在其上进行操作。我也是新手,但无论如何......希望有所帮助