将二进制数据读入(py)spark DataFrame

时间:2015-11-04 10:45:07

标签: python apache-spark apache-spark-sql spark-dataframe

我正在向Spark中提取二进制文件 - 文件结构很简单,它由一系列记录组成,每条记录包含许多浮点数。目前,我正在读取python中的数据块,然后遍历各个记录,将它们转换为Spark可用于构造Row的{​​{1}}个对象。这是非常低效的,因为它不是以块的形式处理数据,而是需要循环遍历各个元素。

是否有一种明显的(首选)方式来摄取这样的数据?理想情况下,我可以将一大块文件(比如说10240条记录)读入缓冲区,指定模式并直接将其转换为DataFrame。我没有看到使用当前API执行此操作的方法,但也许我错过了什么?

以下是演示当前程序的示例笔记本:https://gist.github.com/rokroskar/bc0b4713214bb9b1e5ed

理想情况下,我可以摆脱DataFramebuf的for循环,直接将整个批处理转换为read_batches个对象的数组。

0 个答案:

没有答案