Question

我正在将Python应用程序移植到Java，并停留在实现Lambda flatMap()的正确方法上。我正在解析IP日志，需要在''（空格）上分割。

我的环境：

Spark vrs 2.1
IntelliJ
Java 8
jdk 1.92

我拥有的是：

加载数据框：

Dataset<Row> MyLog = spark.sql("Select RecordNumber, IpAddress from Table);
MyLog.createOrReplaceTempView("MyLog");

现在尝试使用lambda flatmap（）

Dataset<String> Mylog2 = Mylog.flatMap(e -> String.asList(e.split(' ')));

我尝试了以下几种变化：

Dataset<Row> Mylog2 = Mylog.flatMap(e -> Array.asList(e.split(' ')));
Dataset<String> Mylog2 = Mylog.flatMap(lambda(e -> String.asList(e.split(' '))));

等

原始的python看起来像这样：

Mylog2 = Mylog.rdd.flatMap(lambda(x,y): ((x,v) for v in y.split(' ')))

对于使用Spark使用Java实现此方法的正确方法，我将不胜感激

谢谢

Answer 1

有关：

Dataset<String> Mylog2 = Mylog.flatMap(row -> java.util.Arrays.stream(row.getString(1).split(' ')).iterator(), Encoders.STRING());

但是您要拆分哪一列？在IpAddress上？

如何在带有Spark 2.1的Java中使用lambda flatMap（）

1 个答案: