Apache Spark - 在特定行拆分数据集行 - Java / Pyspark

时间:2017-10-18 19:21:59

标签: java python apache-spark pyspark spark-dataframe

我最初在Pyspark shell中完成了这项工作,计划稍后编写Java代码来完成同样的事情。

我正在将文本文件读入DataFrame     df = spark.read.text("log.txt")

文本文件是一个日志文件,分为两个部分,由包含特定字符串的行描述。我想将初始DataFrame拆分为两个单独的DataFrame,每个部分一个。我很难找到关于这种DataFrame操作的信息(排序行而不是列。)我最好的猜测是逻辑看起来像:用字符串查找行号然后根据它创建新的DataFrames单个行号与带有字符串的行号进行比较。我不知道这是否真的有效。

这种事情对DataFrame是否可行,如果是这样,我将如何去做呢?只需逐行读取初始文件并在那里创建两个DataFrame,效率会更高吗?

0 个答案:

没有答案