我有一个带有多个标题的文本文件,其中“ TEMP”列具有当天的平均温度,其次是记录数。如何正确阅读此文本文件以创建DataFrame
STN--- WBAN YEARMODA TEMP
010010 99999 20060101 33.5 23
010010 99999 20060102 35.3 23
010010 99999 20060103 34.4 24
STN--- WBAN YEARMODA TEMP
010010 99999 20060120 35.2 22
010010 99999 20060121 32.2 21
010010 99999 20060122 33.0 22
答案 0 :(得分:1)
RDD
space
RDD
将.toDF(col_names)
转换为数据框赞:
rdd = sc.textFile("path/to/file.txt").map(lambda x: x.split(" ")) # step 1 & 2
headers = rdd.first() # Step 3
rdd2 = rdd.filter(lambda x: x != headers)
df = rdd2.toDF(headers) # Step 4
答案 1 :(得分:0)
您可以尝试一下。我已经在控制台上尝试过。
val x = sc.textFile("hdfs path of text file")
val header = x.first()
var y = x.filter(x=>(!x.contains("STN"))) //this will remove all the line
var df = y.toDF(header)
希望这对您有用。