我想编写一个产生数百万随机数作为输出的Spark作业。这不需要输入数据集,但最好具有集群的并行性。
据我所知,Spark在RDD上运行,RDD是定义的数据集,我只是想知道是否有办法强制许多执行者在没有RDD的情况下运行特定的函数,或者创建模拟RDD。
答案 0 :(得分:0)
'mail_admins': {
'level': 'ERROR',
'filters': ['require_debug_false'], # change it to require_debug_true if you want to test it locally.
'class': '<yourproject>.<yourfile>.ConstanceEmailHandler', # path to newly created handler class
'include_html': True
},