应用错误收集

从并行txt文件中读取dask数据帧

时间：2017-10-18 16:18:46

标签： dask dask-distributed

我有两个（或更多）并行文本文件存储在S3中 - 即第一个文件中的第1行对应于第二个文件中的第1行等。我想将这些文件作为列读入单个dask数据帧。什么是最好/最简单/最快的方法呢？

PS。我可以将它们中的每一个读入一个单独的数据帧，但是我不能将它们加入到索引中，因为数据帧索引值似乎既不是唯一的也不是单调的。同时，行的对应关系由它们在每个文件中的位置来定义。

1 个答案:

答案 0 :(得分：1)

不幸的是，dask.dataframe按字节分解大文件，而不是按行分解。在没有首先阅读所有内容的情况下，很难在大文件中查找特定行。