PySpark将文本文件读入单列数据框

时间:2018-09-13 19:23:34

标签: pyspark

我有一个文本文件想读取到数据框中。我更喜欢将其读入一列。这一直有效,直到我遇到其中包含^的文件。

raw = spark.read.option("delimiter", "^").csv(data_dir + pair[0])

但是a,一天下来,下一个打破了格局。我没有看到delimiter None的选项。有没有一种有效的方法可以做到这一点?

1 个答案:

答案 0 :(得分:1)

您是否考虑过使用spark.read.textFile?它可能会做您想要的。