我最初在Pyspark shell中完成了这项工作,计划稍后编写Java代码来完成同样的事情。
我正在将文本文件读入DataFrame
df = spark.read.text("log.txt")
文本文件是一个日志文件,分为两个部分,由包含特定字符串的行描述。我想将初始DataFrame拆分为两个单独的DataFrame,每个部分一个。我很难找到关于这种DataFrame操作的信息(排序行而不是列。)我最好的猜测是逻辑看起来像:用字符串查找行号然后根据它创建新的DataFrames单个行号与带有字符串的行号进行比较。我不知道这是否真的有效。
这种事情对DataFrame是否可行,如果是这样,我将如何去做呢?只需逐行读取初始文件并在那里创建两个DataFrame,效率会更高吗?