应用错误收集

从位置定界文件读取火花

时间：2018-08-27 21:50:10

标签： apache-spark hadoop

我有一个问题，我试图将文件沿n个字符长度的记录拆分为一个分布式系统。我具有分解记录并将其映射到记录级别上的专有名称的功能，但是需要从文件转到系统上再分解文件并将其以n个长度大小的片段传递给节点，以达到进行拆分和处理。

1 个答案:

答案 0 :(得分：0)

我已经研究了SparkContext对象的规范，并且有一种方法可以从Hadoop环境中提取文件并将其作为字节数组数据帧加载。该函数是byteRecords。