在R和Python之间交叉阅读镶木地板文件

时间:2017-08-01 09:09:43

标签: r parquet dask

我们生成了一个镶木地板文件,一个在Dask(Python),另一个在R Drill(使用Sergeant数据包)。他们使用parquet see my other parquet question

的不同实现

我们无法交叉读取文件(python无法读取R文件,反之亦然) 在R环境中阅读Python镶木地板文件时,我们收到以下错误:system error: Illegalstatexception: UTF8 can only annotate binary filed 当在Dask中阅读R / Drill镶木地板文件时,我们得到FileNotFoundError: [Error 2] no such file or directory ...\_metadata(这是自解释的) 在R和Python之间交叉阅读镶木地板文件的选项有哪些?

任何见解都将不胜感激。

1 个答案:

答案 0 :(得分:1)

要使用fastparquet / dask读取类似钻石的镶木地板数据集,您需要传递文件名列表,例如

files = glob.glob('mydata/*/*.parquet')
df = dd.read_parquet(files)

进入另一个方向的错误可能是错误,或者(从您的其他问题收集),可能表示您使用了固定长度的字符串,但是钻/ R不支持它们。