没有输入数据集的Spark作业

时间:2016-03-16 16:36:43

标签: apache-spark distributed-computing

我想编写一个产生数百万随机数作为输出的Spark作业。这不需要输入数据集,但最好具有集群的并行性。

据我所知,Spark在RDD上运行,RDD是定义的数据集,我只是想知道是否有办法强制许多执行者在没有RDD的情况下运行特定的函数,或者创建模拟RDD。

1 个答案:

答案 0 :(得分:0)

'mail_admins': {
    'level': 'ERROR',
    'filters': ['require_debug_false'], # change it to require_debug_true if you want to test it locally.
    'class': '<yourproject>.<yourfile>.ConstanceEmailHandler', # path to newly created handler class
    'include_html': True
    },