我是Spark,Hadoop以及所有相关内容的新手。我的全球需求是构建一个实时应用程序,以获取推文并将其存储在HDFS上,以便基于HBase构建报告。
我想在调用saveAsTextFile RRD方法时获取生成的文件名,以便将其导入Hive。
请提前询问进一步的信息和感谢。
答案 0 :(得分:1)
saveAsTextFile将创建一个序列文件目录。因此,如果您给它路径“hdfs:// user / NAME / saveLocation”,将创建一个名为saveLocation的文件夹,其中包含序列文件。您只需将目录名称传递给HBase即可将其加载到HBase中(有序文件是Hadoop中的标准文件)。
我建议您将保存视为镶木地板,但它们比标准文本文件更有用。
答案 1 :(得分:0)
根据我的理解,您将推文保存到hdfs,现在想要保存这些文件的文件名。如果我错了,请纠正我
val filenames=sc.textfile("Your hdfs location where you saved your tweets").map(_._1)
这会为您提供一系列rdd到 文件名 ,您可以在其上进行操作。我也是新手,但无论如何......希望有所帮助