我是Apache Spark的新手,需要帮助。
我有python脚本,读取6个tdms文件(TDMS()函数)并构建每个数字数据的图形(GRAPH()函数)。我用for循环做。 但我想加载1000个这样的文件,并为每个文件并行运行这个脚本。所以我想用这些文件创建RDD并将我的函数应用到每个文件中?
我该怎么办? 我可以在Spark中定义节点数吗?
答案 0 :(得分:0)
您是否尝试制作包含您需要阅读的所有文件的Python列表,并在for循环中运行这些文件以从文件中读取数据,创建RDD,运行图形函数,我想保存它?
或者将文件列表设为RDD,并为每个文件列表运行map,lambda(图表)。
如果你只关心并行运行,你可以继续加载数据并制作一个大的RDD,并调用sc.parallelize。您可以决定使用Spark,也可以通过调用sc.parallelize(data,)来指定要使用的数字。