我正在将Python应用程序移植到Java,并停留在实现Lambda flatMap()
的正确方法上。我正在解析IP日志,需要在''(空格)上分割。
我的环境:
我拥有的是:
加载数据框:
Dataset<Row> MyLog = spark.sql("Select RecordNumber, IpAddress from Table);
MyLog.createOrReplaceTempView("MyLog");
现在尝试使用lambda flatmap()
Dataset<String> Mylog2 = Mylog.flatMap(e -> String.asList(e.split(' ')));
我尝试了以下几种变化:
Dataset<Row> Mylog2 = Mylog.flatMap(e -> Array.asList(e.split(' ')));
Dataset<String> Mylog2 = Mylog.flatMap(lambda(e -> String.asList(e.split(' '))));
等
原始的python看起来像这样:
Mylog2 = Mylog.rdd.flatMap(lambda(x,y): ((x,v) for v in y.split(' ')))
对于使用Spark使用Java实现此方法的正确方法,我将不胜感激
谢谢
答案 0 :(得分:0)
有关:
Dataset<String> Mylog2 = Mylog.flatMap(row -> java.util.Arrays.stream(row.getString(1).split(' ')).iterator(), Encoders.STRING());
但是您要拆分哪一列?在IpAddress上?