除了pyspark还是pyspark我还需要使用普通的python吗?

时间:2017-08-30 16:03:07

标签: hadoop machine-learning pyspark cloudera

我的公司正在转向使用Hadoop&机器学习的火花。我知道python在库中非常全面,但是当我们切换到pyspark时,如果我们需要pyspark中没有的东西呢?另外,使用python可能更容易,因为我已经知道了python.So:

  1. 我可以在spark中运行我的普通python代码并仍然可以获得速度等所有好处吗?
  2. 人们只使用pyspark还是使用普通的python和pyspark?
  3. 你可以将它们混合在一起,在python中编写部分代码,在pyspark中编写部分代码吗?

1 个答案:

答案 0 :(得分:1)

Pyspark或多或少是一个可以在python之上使用的函数库。

  1. 你仍然可以运行你的python代码,但他们不会从spark中获益(因为你不会使用pyspark库,对象...... )
  2. 您将要操纵的对象是pyspark对象(RDDdataframesdatasets),因此您无法像您一样能够混合操作&#39 ; t与其他事物混合pandas。您将能够使用python创建UDF(用户定义函数),然后您可以将其应用于RDDdataframe的每一行(就像map中的pandas一样)
  3. 有些方法可以将pyspark对象转换为其他python对象(listpandas dataframejson ...),当它足够小以便将其带给驱动程序时#39记忆。