来自hadoop的小文件的spark rdd

时间:2015-03-05 13:00:20

标签: apache-spark

我有很多小的小xml文件,每个文件有1个记录。我正在使用spark进行一些转换并加载到DB中。当我使用本地文件时sc.wholeTextFiles(args[0]).values();它的工作正常,我可以看到日志 喜欢......

1 record transformed..
1 record transformed..

并且每个分区都加载到db并获取

之类的日志
2000 records loaded 
0 rejected.

但是当使用sc.wholeTextFiles(args[0]).values();从hadoop加载文件时,其显示文件不存在。

所以我尝试使用sc.TextFile(args[0]); ..这是有效的但是花了很多时间从日志中我可以看到它处理每个文件的转换并加载到db .logs之类的

1 record transformed..
1 records loaded..
0 rejected..

再次

1 record transformed..
1 records loaded..

我无法理解spark里面发生了什么。如何解决这个问题。

0 个答案:

没有答案