Question

我想编写一个产生数百万随机数作为输出的Spark作业。这不需要输入数据集，但最好具有集群的并行性。

据我所知，Spark在RDD上运行，RDD是定义的数据集，我只是想知道是否有办法强制许多执行者在没有RDD的情况下运行特定的函数，或者创建模拟RDD。

Answer 1

'mail_admins': {
    'level': 'ERROR',
    'filters': ['require_debug_false'], # change it to require_debug_true if you want to test it locally.
    'class': '<yourproject>.<yourfile>.ConstanceEmailHandler', # path to newly created handler class
    'include_html': True
    },

没有输入数据集的Spark作业

1 个答案: