应用错误收集

我最初在Pyspark shell中完成了这项工作，计划稍后编写Java代码来完成同样的事情。

我正在将文本文件读入DataFrame df = spark.read.text("log.txt")

文本文件是一个日志文件，分为两个部分，由包含特定字符串的行描述。我想将初始DataFrame拆分为两个单独的DataFrame，每个部分一个。我很难找到关于这种DataFrame操作的信息（排序行而不是列。）我最好的猜测是逻辑看起来像：用字符串查找行号然后根据它创建新的DataFrames单个行号与带有字符串的行号进行比较。我不知道这是否真的有效。

这种事情对DataFrame是否可行，如果是这样，我将如何去做呢？只需逐行读取初始文件并在那里创建两个DataFrame，效率会更高吗？

Apache Spark - 在特定行拆分数据集行 - Java / Pyspark

0 个答案: