应用错误收集

我正在向Spark中提取二进制文件 - 文件结构很简单，它由一系列记录组成，每条记录包含许多浮点数。目前，我正在读取python中的数据块，然后遍历各个记录，将它们转换为Spark可用于构造Row的{{1}}个对象。这是非常低效的，因为它不是以块的形式处理数据，而是需要循环遍历各个元素。

是否有一种明显的（首选）方式来摄取这样的数据？理想情况下，我可以将一大块文件（比如说10240条记录）读入缓冲区，指定模式并直接将其转换为DataFrame。我没有看到使用当前API执行此操作的方法，但也许我错过了什么？

理想情况下，我可以摆脱DataFrame中buf的for循环，直接将整个批处理转换为read_batches个对象的数组。