我正在寻找与hadoop InputFormat
相当的东西。但是我没有来自Hadoop的.java
类。我的问题是如何在火花中完成,而不使用Hadoop识别输入的方式。
很抱歉,如果这是一个愚蠢的问题,但我对Hadoop / Spark极其陌生。
感谢
答案 0 :(得分:0)
我假设在MR InputFormat
的情况下数据会很小,因为它主要用于定义相干数据组(在单一地图或MR中处理)。所以定义相干组的文件不太可能太大而不适合内存。因此,可以从InputFormat
读取数据,并在Spark的情况下将其缓存在内存中。稍后你可以读取这个文件的内容,创建一个迭代器(它将识别数据部分说Hive分区),然后使用这个迭代器为数据部分生成动态路径。