我需要为pyspark编写一个自定义GroupBy.Apply()
函数。所以我提到了:Introducing Pandas UDF for PySpark
正如我所说的那样-
@pandas_udf(<mydf>.schema, PandasUDFType.GROUPED_MAP)
def tstFn(x):
# x is a DataFrame of group values
x['Test'] = x['TotalErrors'].sum()
return x
现在,我发现尚未安装pyarrow。因此我安装了sudo pip install pyarrow
,但失败了ImportError: No module named pyarrow
。看起来像pyarrow has to be installed on all the DataNodes。
问题:现在,我已经在客户端中安装了pyarrow
,即使使用pyspark
在本地启动pyspark --deploy-mode client
时,为什么仍然出现错误?
默认情况下,看起来像客户端Post 1和Post 2。在那种情况下,问题似乎仍然有效!
>>> conf.get("spark.submit.deployMode")
u'client'
>>>