Spark流媒体和模拟HDFS

时间:2018-08-14 00:53:22

标签: java apache-spark hadoop cucumber hdfs

需要对Spark Streaming代码实施测试。通过使用this library,此特定代码在单独的jvm中运行 以上应用程序的输入是hdfs。我已经在example (java version) 中启动了MiniDFSCluster 但是我认为这不会起作用,因为它们位于两个不同的JVM中。

如果我要成功测试Spark Streaming代码,那么模拟hdfs输入的最佳方法是什么。

我通常解释了上述情况。真正的要求是实施成功的cucumber测试。

1 个答案:

答案 0 :(得分:0)

您可以在本地模式下运行Spark并指定诸如“ file:/// foo / bar”之类的路径,而不是尝试模拟hdfs-然后将使用本地文件系统代替hdfs。