Question

我有一个数据框，如下所示：

val df = Seq(("x", "y", 1),("x", "z", 2),("x", "a", 4), ("x", "a", 5), ("t", "y", 1), ("t", "y2", 6), ("t", "y3", 3), ("t", "y4", 5)).toDF("F1", "F2", "F3")

+---+---+---+
| F1| F2| F3|
+---+---+---+
|  x|  y|  1|
|  x|  z|  2|
|  x|  a|  4|
|  x|  a|  5|
|  t|  y|  1|
|  t| y2|  6|
|  t| y3|  3|
|  t| y4|  5|
+---+---+---+

我正在尝试为此数据框创建测试序列拆分。我在该过程中观察到一种奇怪的行为，如下所示：

以下代码有效：

val Array(train_DF, test_DF) = df.randomSplit(Array(0.6, 0.4), 1234L)

但是下面的代码为什么不起作用？

val Array(Train_DF, Test_DF) = df.randomSplit(Array(0.6, 0.4), 1234L)

它给出了如下错误：

<console>:25: error: not found: value Train_DF
       val Array(Train_DF, Test_DF) = df.randomSplit(Array(0.6, 0.4), 1234L)
                 ^
<console>:25: error: not found: value Test_DF
       val Array(Train_DF, Test_DF) = df.randomSplit(Array(0.6, 0.4), 1234L)
                           ^

Array中的数据框名称是否区分大小写？

为什么在Spark randomSplit API中出现这种奇怪的行为？

0 个答案: