我在pyspark中得到了一个怪异的数据集。它似乎是由tilda分隔的,带有一些随机字符'^〜'
<TITLE>|^~<DATE>|^~<JSON>
request|^~2018-06-21|^~{"reason":{"display_value":"","value":""},"code":{"display_value":1,"value":"1"}}
我在将其读入pyspark 2.1数据帧时遇到麻烦。这是我正在运行的代码:
df = sqlContext.read.format("com.databricks.spark.csv").option("header","true").option("delimeter","|").load(myfile)
df.show()
+--------------------------+
|<TITLE>|^~<DATE>|^~<JSON>|
+--------------------------+
| request|^~2018-0...|
| request|^~2018-0...|
| request|^~2018-0...|
+--------------------------+
删除此文件的正确方法是什么?
我也尝试过:spark.read.text(myfile)
,但不知道如何在其上放置定界符。
谢谢!