Question

我是Spark，Hadoop以及所有相关内容的新手。我的全球需求是构建一个实时应用程序，以获取推文并将其存储在HDFS上，以便基于HBase构建报告。

我想在调用saveAsTextFile RRD方法时获取生成的文件名，以便将其导入Hive。

请提前询问进一步的信息和感谢。

Answer 1

saveAsTextFile将创建一个序列文件目录。因此，如果您给它路径“hdfs：// user / NAME / saveLocation”，将创建一个名为saveLocation的文件夹，其中包含序列文件。您只需将目录名称传递给HBase即可将其加载到HBase中（有序文件是Hadoop中的标准文件）。

我建议您将保存视为镶木地板，但它们比标准文本文件更有用。

Answer 2

根据我的理解，您将推文保存到hdfs，现在想要保存这些文件的文件名。如果我错了，请纠正我

val filenames=sc.textfile("Your hdfs location where you saved your tweets").map(_._1)

这会为您提供一系列rdd到 文件名 ，您可以在其上进行操作。我也是新手，但无论如何......希望有所帮助

如何在调用Spark SaveAsTextFile方法

2 个答案: