我正在使用“分布式散布”静态群集(1个工作程序)。数据集很小(1MB),并且已将Hive分区。从s3读取数据后,我尝试调用.describe().compute()
,但收到以下错误:
TypeError: Series cannot perform the operation **
有什么想法或建议吗?不要因为数据而认为它,因为我已经使用过.head()
并且有效。
示例代码:
test = df.read_parquet('s3://bucket/test', engine='pyarrow')
test.head() # works
test1 = test.describe()
test1.compute() # here the error
谢谢!