标签: apache-spark hadoop
我有一个问题,我试图将文件沿n个字符长度的记录拆分为一个分布式系统。我具有分解记录并将其映射到记录级别上的专有名称的功能,但是需要从文件转到系统上再分解文件并将其以n个长度大小的片段传递给节点,以达到进行拆分和处理。
答案 0 :(得分:0)
我已经研究了SparkContext对象的规范,并且有一种方法可以从Hadoop环境中提取文件并将其作为字节数组数据帧加载。该函数是byteRecords。