应用错误收集

我正在从HDFS中读取CSV，但是找不到忽略前X行的方法。就我而言，其中一些是我不需要的标头。

data = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load('hdfs:///user/myuser/myData.csv')

CSV看起来像这样：

Senseless Header 112121212
ID 11122233
42
This has no sense
Nr; Value; Yes/No; Value
1; 42; No; Test
2; 22; Yes; Test2
3; 11; No; wtf
4; 23; No; crack
...

是否有像.ignore(rows < 5)这样的解决方案？
还是我必须先读取RDD，准备好，然后将其放入DataFrame Scheme中？但是我不认为这是应该做的方式。

.csv到pyspark.sql.DataFrame，但忽略某些标头

0 个答案: