应用错误收集

如何告诉spark应该将文件拆分为输入？

时间：2016-09-06 21:37:38

标签： apache-spark

我正在寻找与hadoop InputFormat相当的东西。但是我没有来自Hadoop的.java类。我的问题是如何在火花中完成，而不使用Hadoop识别输入的方式。很抱歉，如果这是一个愚蠢的问题，但我对Hadoop / Spark极其陌生。感谢

1 个答案:

答案 0 :(得分：0)

我假设在MR InputFormat的情况下数据会很小，因为它主要用于定义相干数据组（在单一地图或MR中处理）。所以定义相干组的文件不太可能太大而不适合内存。因此，可以从InputFormat读取数据，并在Spark的情况下将其缓存在内存中。稍后你可以读取这个文件的内容，创建一个迭代器（它将识别数据部分说Hive分区），然后使用这个迭代器为数据部分生成动态路径。

形式输入应该多么宽容？
如何从文件中分割给定的输入？
使用正则表达式告诉csplit在哪里拆分文件
如何判断是否可以拆分python
应用Android App数据应该放在哪里？我该如何写文件？
如何在Spark中拆分序列文件
如何拆分列？
如何告诉spark应该将文件拆分为输入？
在哪里告诉Angular我的方向应该从右到左？
哪里应该存储一个存储文件

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？