如何将1000个文件移动到RDD?

时间:2015-07-02 05:08:56

标签: apache-spark pyspark

我是Apache Spark的新手,需要帮助。

我有python脚本,读取6个tdms文件(TDMS()函数)并构建每个数字数据的图形(GRAPH()函数)。我用for循环做。 但我想加载1000个这样的文件,并为每个文件并行运行这个脚本。所以我想用这些文件创建RDD并将我的函数应用到每个文件中?

我该怎么办? 我可以在Spark中定义节点数吗?

1 个答案:

答案 0 :(得分:0)

您是否尝试制作包含您需要阅读的所有文件的Python列表,并在for循环中运行这些文件以从文件中读取数据,创建RDD,运行图形函数,我想保存它?

或者将文件列表设为RDD,并为每个文件列表运行map,lambda(图表)。

如果你只关心并行运行,你可以继续加载数据并制作一个大的RDD,并调用sc.parallelize。您可以决定使用Spark,也可以通过调用sc.parallelize(data,)来指定要使用的数字。