应用错误收集

时间：2015-07-02 05:08:56

标签： apache-spark pyspark

我是Apache Spark的新手，需要帮助。

我有python脚本，读取6个tdms文件（TDMS（）函数）并构建每个数字数据的图形（GRAPH（）函数）。我用for循环做。但我想加载1000个这样的文件，并为每个文件并行运行这个脚本。所以我想用这些文件创建RDD并将我的函数应用到每个文件中？

我该怎么办？我可以在Spark中定义节点数吗？

答案 0 :(得分：0)

您是否尝试制作包含您需要阅读的所有文件的Python列表，并在for循环中运行这些文件以从文件中读取数据，创建RDD，运行图形函数，我想保存它？

或者将文件列表设为RDD，并为每个文件列表运行map，lambda（图表）。

如果你只关心并行运行，你可以继续加载数据并制作一个大的RDD，并调用sc.parallelize。您可以决定使用Spark，也可以通过调用sc.parallelize（data，）来指定要使用的数字。