我的公司正在转向使用Hadoop&机器学习的火花。我知道python在库中非常全面,但是当我们切换到pyspark时,如果我们需要pyspark中没有的东西呢?另外,使用python可能更容易,因为我已经知道了python.So:
答案 0 :(得分:1)
Pyspark
或多或少是一个可以在python之上使用的函数库。
spark
中获益(因为你不会使用pyspark
库,对象...... )RDD
,dataframes
,datasets
),因此您无法像您一样能够混合操作&#39 ; t与其他事物混合pandas
。您将能够使用python创建UDF(用户定义函数),然后您可以将其应用于RDD
,dataframe
的每一行(就像map
中的pandas
一样)list
,pandas dataframe
,json
...),当它足够小以便将其带给驱动程序时#39记忆。