如何告诉spark应该将文件拆分为输入?

时间:2016-09-06 21:37:38

标签: apache-spark

我正在寻找与hadoop InputFormat相当的东西。但是我没有来自Hadoop的.java类。我的问题是如何在火花中完成,而不使用Hadoop识别输入的方式。 很抱歉,如果这是一个愚蠢的问题,但我对Hadoop / Spark极其陌生。 感谢

1 个答案:

答案 0 :(得分:0)

我假设在MR InputFormat的情况下数据会很小,因为它主要用于定义相干数据组(在单一地图或MR中处理)。所以定义相干组的文件不太可能太大而不适合内存。因此,可以从InputFormat读取数据,并在Spark的情况下将其缓存在内存中。稍后你可以读取这个文件的内容,创建一个迭代器(它将识别数据部分说Hive分区),然后使用这个迭代器为数据部分生成动态路径。