我有:
read.text("s3n://2016/01/*")
我找不到如何获取标题的方法,以及后面的相应行来一起处理它。无法编写每个文件分区数据的Imho自定义Partitioner
,并且rdd / dataset / dataframe API不提供任何可以执行此操作的方法...
有什么想法吗?我可以使用Spark 2.0.0。在我看来,Spark对带有标题的DSV文件并不友好,特别是如果标题不同......
答案 0 :(得分:0)
最简单的策略可能是以一种理智的方式组织文件以进行进一步处理,或者构建一个哪个文件类型的目录,然后使用它来驱动构建RDD。
有关从rdd内部调用amazon s3客户端的示例,请参阅http://tech.kinja.com/how-not-to-pull-from-s3-using-apache-spark-1704509219。您可以使用它来构建该目录。