在Spark 1.6中,如何读取具有重复列名的CSV文件

时间:2018-07-03 05:39:04

标签: apache-spark

我找不到读取列名重复两次的CSV文件的解决方案,但是在读取CSV文件时却出现错误,抱怨列名重复

有没有一种方法可以在不更改CSV文件的情况下处理spark。

我的CSV数据看起来像这样,由Tab(\ t)和每列中的一些额外空格分隔。

col1    col2  col3
  2020  100   sometext  

1 个答案:

答案 0 :(得分:0)

您还可以尝试使用textfile方法读取csv文件,然后将它们分割并映射回去,然后将它们转换为DF或用作RDD!

希望这行得通!