我们生成了一个镶木地板文件,一个在Dask
(Python),另一个在R Drill
(使用Sergeant
数据包)。他们使用parquet
see my other parquet question
我们无法交叉读取文件(python无法读取R文件,反之亦然)
在R环境中阅读Python镶木地板文件时,我们收到以下错误:system error: Illegalstatexception: UTF8 can only annotate binary filed
当在Dask中阅读R / Drill镶木地板文件时,我们得到FileNotFoundError: [Error 2] no such file or directory ...\_metadata
(这是自解释的)
在R和Python之间交叉阅读镶木地板文件的选项有哪些?
任何见解都将不胜感激。
答案 0 :(得分:1)
要使用fastparquet / dask读取类似钻石的镶木地板数据集,您需要传递文件名列表,例如
files = glob.glob('mydata/*/*.parquet')
df = dd.read_parquet(files)
进入另一个方向的错误可能是错误,或者(从您的其他问题收集),可能表示您使用了固定长度的字符串,但是钻/ R不支持它们。