标签: apache-spark hive apache-spark-sql rdd
假定存在一个包含top 3 lines as header和last 3 footer lines的大文件。 How to remove them using Apache Spark.
top 3 lines as header
last 3 footer lines
How to remove them using Apache Spark.
在Hive中,我们可以使用表属性tblproperties ("skip.header.line.count","3")和("skip.footer.line.count","3")
Hive
tblproperties
("skip.header.line.count","3"
("skip.footer.line.count","3")
Spark中是否有类似的属性(我在文档中没有看到任何属性)。让我知道最好的方法是什么?