Pyspark:如何使用管道斜线提取器提取文本文件

时间:2018-06-25 16:43:08

标签: pyspark

我在pyspark中得到了一个怪异的数据集。它似乎是由tilda分隔的,带有一些随机字符'^〜'

<TITLE>|^~<DATE>|^~<JSON>
request|^~2018-06-21|^~{"reason":{"display_value":"","value":""},"code":{"display_value":1,"value":"1"}}

我在将其读入pyspark 2.1数据帧时遇到麻烦。这是我正在运行的代码:

df = sqlContext.read.format("com.databricks.spark.csv").option("header","true").option("delimeter","|").load(myfile)
df.show()

+--------------------------+
|<TITLE>|^~<DATE>|^~<JSON>|
+--------------------------+
|      request|^~2018-0...|
|      request|^~2018-0...|
|      request|^~2018-0...|
+--------------------------+

删除此文件的正确方法是什么?

我也尝试过:spark.read.text(myfile),但不知道如何在其上放置定界符。

谢谢!

0 个答案:

没有答案