如何在Spark计算中应用Python库?

时间:2016-10-18 03:29:19

标签: apache-spark pyspark

我想在包含时间序列数据的Spark RDD上使用名为traces的Python库。换句话说,我在RDD(100个分区)中有数据,我想应用代码,以便它像Spark一样并行计算结果。具体来说,我试图将不均匀间隔的时间序列数据转换为均匀间隔的表示。

总之,我在问

  1. 如何将Python包应用于Spark RDD分区 平行?
  2. 由于traces包计算时间序列数据的相关性,如果数据在分区中,实现上述任务会得到正确的答案吗?

0 个答案:

没有答案