应用错误收集

我在pyspark中得到了一个怪异的数据集。它似乎是由tilda分隔的，带有一些随机字符'^〜'

<TITLE>|^~<DATE>|^~<JSON>
request|^~2018-06-21|^~{"reason":{"display_value":"","value":""},"code":{"display_value":1,"value":"1"}}

我在将其读入pyspark 2.1数据帧时遇到麻烦。这是我正在运行的代码：

df = sqlContext.read.format("com.databricks.spark.csv").option("header","true").option("delimeter","|").load(myfile)
df.show()

+--------------------------+
|<TITLE>|^~<DATE>|^~<JSON>|
+--------------------------+
|      request|^~2018-0...|
|      request|^~2018-0...|
|      request|^~2018-0...|
+--------------------------+

删除此文件的正确方法是什么？

我也尝试过：spark.read.text(myfile)，但不知道如何在其上放置定界符。

谢谢！

Pyspark：如何使用管道斜线提取器提取文本文件

0 个答案: