可以使用命名参数进行spark-submit吗?

时间:2017-10-20 08:36:49

标签: scala apache-spark distributed-computing

我知道我可以通过

将参数传递给main函数
spark-submit com.xxx.test 1 2

并通过以下方式获得参数:

def main(args: Array[String]): Unit = {
    // 读取参数
    var city = args(0)
    var num = args(1)

但我想知道是否有传递命名参数的路径,如:

spark-submit com.xxx.test --citys=1 --num=2

以及如何在main.scala中获取此命名参数?

2 个答案:

答案 0 :(得分:7)

你可以编写自己的自定义类,根据下面的键来解析输入参数:

object CommandLineUtil {

  def getOpts(args: Array[String], usage: String): collection.mutable.Map[String, String] = {
    if (args.length == 0) {
      log.warn(usage)
      System.exit(1)
    }

    val (opts, vals) = args.partition {
      _.startsWith("-")
    }

    val optsMap = collection.mutable.Map[String, String]()
    opts.map { x =>
      val pair = x.split("=")
      if (pair.length == 2) {
        optsMap += (pair(0).split("-{1,2}")(1) -> pair(1))
      } else {
        log.warn(usage)
        System.exit(1)
      }
    }

    optsMap
  }
}

然后您可以在spark应用程序中使用这些方法

val usage = "Usage:  [--citys] [--num]"
val optsMap = CommandLineUtil.getOpts(args, usage)
val citysValue = optsMap("citys")
val numValue = optsMap("num")

您可以根据自己的要求即兴创作CommandLineUtil

答案 1 :(得分:0)

没有

正如您可以在Documentation中阅读的那样,您只需传递应用程序的参数,然后处理它们。

所以,如果你想拥有"命名参数",那么你应该在你的代码中实现它(我的意思是它将是自定义的)。