我正在从HDFS中读取CSV,但是找不到忽略前X行的方法。就我而言,其中一些是我不需要的标头。
data = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load('hdfs:///user/myuser/myData.csv')
CSV看起来像这样:
Senseless Header 112121212
ID 11122233
42
This has no sense
Nr; Value; Yes/No; Value
1; 42; No; Test
2; 22; Yes; Test2
3; 11; No; wtf
4; 23; No; crack
...
是否有像.ignore(rows < 5)
这样的解决方案?
还是我必须先读取RDD,准备好,然后将其放入DataFrame Scheme中?但是我不认为这是应该做的方式。