我是Spark的新手。我正在尝试在java中实现spark程序。我只是想从一个文件夹中读取多个文件,并通过将其单词@ filname配对作为键和值(计数)来完全组合。
我不知道如何将所有数据组合在一起..我希望输出就像对 (字@ FILNAME,1)
例如: (快乐@ file1,2) (NEWYEAR @ file1,1) (NEWYEAR @ file2,1)
答案 0 :(得分:0)
参考java-spark文档:https://spark.apache.org/docs/1.6.1/api/java/org/apache/spark/sql/functions.html#input_file_name()
并遵循此回复:https://stackoverflow.com/a/36356253/8357778
您可以在存储数据的数据框中添加带文件名的列。在这些步骤旁边,您只需根据需要选择和转换行。
如果您更喜欢使用RDD,则可以转换数据帧并对其进行映射。