应用错误收集

您可以使用binaryRecords（）pySpark调用将二进制文件的内容转换为RDD

binaryRecords（path，recordLength）

从a加载数据   平面二进制文件，假设每条记录都是一组数字   指定的数字格式（参见ByteBuffer）和字节数   每条记录都是不变的。

参数：path - 输入数据文件recordLength的目录 -   分割记录的长度

然后你可以使用例如struct.unpack（）

将RDD映射到一个结构中。

我们使用这种方法来摄取固定宽度记录的二进制文件。有一些Python代码生成格式字符串（struct.unpack的第一个参数），但是如果你的文件布局是静态的，那么一次手动操作相当简单。

同样可以使用纯Scala：

你没有给出太多细节，但你可以从使用SparkContextbinaryFiles（）API开始