Thinbug
News
从工作进程保存到分布式文件系统
时间:2015-11-09 21:25:50
标签:
apache-spark
pyspark
我对pyspark很新。在我的pyspark应用程序中,我希望实现以下目标:
使用python list创建RDD并将其分区为一些分区。
现在使用rdd.mapPartitions(func)
这里,函数" func"执行迭代操作,将已保存文件的内容读入局部变量(例如numpy数组),使用rdd partion数据执行一些更新,并再次将变量内容保存到某个公共文件系统。
醇>
我无法弄清楚如何在工作进程中读取和写入一个可供所有进程访问的变量?
0 个答案:
没有答案
相关问题
动态添加函数到现有的芹菜工作进程?
从用户进程过滤系统进程
分布式事务 - 为什么我们将tranlogs保存到文件系统?
分布式系统:Python 3 worker和Node.js服务器?
从工作进程保存到分布式文件系统
如何将Numpy数组从PySpark worker保存到HDFS或共享文件系统?
如何创建分布式文件系统
如何保证每个工作人员读取ps-worker分发中的重复数据?
p2p文件系统和分布式文件系统有什么区别?
如何防止dask客户端死于工作者异常?
最新问题
我写了这段代码,但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值,但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场?
是否有可能使 loadstring 不可能等于打印?卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用?
在此代码中是否有使用“this”的替代方法?
在 SQL Server 和 PostgreSQL 上查询,我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源?