从rdd转换为dataframe时索引超出范围

时间:2016-07-11 10:22:06

标签: apache-spark pyspark-sql

我正在尝试将spark RDD转换为dataframe。虽然当我将其转换为数据帧时RDD很好,但我得到索引超出范围错误。

alarms = sc.textFile("hdfs://nanalyticsedge.com:8020/hdp/oneday.csv")
alarms = alarms.map(lambda line: line.split(","))
header = alarms.first()
alarms = alarms.filter(lambda line:line != header)
alarms = alarms.filter(lambda line: len(line)>1)
alarms_df = alarms.map(lambda line: Row(IDENTIFIER=line[0],SERIAL=line[1],NODE=line[2],NODEALIAS=line[3],MANAGER=line[4],AGENT=line[5],ALERTGROUP=line[6],ALERTKEY=line[7],SEVERITY=line[8],SUMMARY=line[9])).toDF()
alarms_df.take(100)

这里alarms.count()工作正常,而alarms_df.count()则指数超出范围。 是来自oracle的数据导出

从@ Dikei的回答中我发现:

alarms = alarms.filter(lambda line: len(line) == 10)

给了我正确的数据帧,但为什么数据帧在数据库导出时会丢失,我该如何防止它?

2 个答案:

答案 0 :(得分:3)

我认为问题是你的一些行不包含10个元素。 这很容易检查,尝试更改

alarms = alarms.filter(lambda line: len(line)>1)

alarms = alarms.filter(lambda line: len(line) == 10)

答案 1 :(得分:0)

没有提到索引的数据。尝试类似,如果数组有超过9个打印第10个元素

proc panel data=have;
    where GroupA = 1
          AND year(date) < 2000;

    id country date;
    class event;

    model Returns = Event;
run;