与Spark中的多个文件交互 - Java代码

时间:2018-02-06 09:56:03

标签: java apache-spark mapreduce flatmap

我是Spark的新手。我正在尝试在java中实现spark程序。我只是想从一个文件夹中读取多个文件,并通过将其单词@ filname配对作为键和值(计数)来完全组合。

我不知道如何将所有数据组合在一起..我希望输出就像对 (字@ FILNAME,1)

例如: (快乐@ file1,2) (NEWYEAR @ file1,1) (NEWYEAR @ file2,1)

1 个答案:

答案 0 :(得分:0)

参考java-spark文档:https://spark.apache.org/docs/1.6.1/api/java/org/apache/spark/sql/functions.html#input_file_name()

并遵循此回复:https://stackoverflow.com/a/36356253/8357778

您可以在存储数据的数据框中添加带文件名的列。在这些步骤旁边,您只需根据需要选择和转换行。

如果您更喜欢使用RDD,则可以转换数据帧并对其进行映射。