.csv到pyspark.sql.DataFrame,但忽略某些标头

时间:2019-05-28 09:06:27

标签: python apache-spark dataframe apache-spark-sql

我正在从HDFS中读取CSV,但是找不到忽略前X行的方法。就我而言,其中一些是我不需要的标头。

data = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load('hdfs:///user/myuser/myData.csv')

CSV看起来像这样:

Senseless Header 112121212
ID 11122233
42
This has no sense
Nr; Value; Yes/No; Value
1; 42; No; Test
2; 22; Yes; Test2
3; 11; No; wtf
4; 23; No; crack
...

是否有像.ignore(rows < 5)这样的解决方案?
还是我必须先读取RDD,准备好,然后将其放入DataFrame Scheme中?但是我不认为这是应该做的方式。

0 个答案:

没有答案