如何替换PySpark中的垂直线(|)?

时间:2019-12-18 14:40:52

标签: pyspark jupyter-notebook

我有一个项目,其中使用Jupyter Notebook中的PySpark进行一些基本数据收集。 在此数据集中,有一列为字符串类型。该字符串可以是1个项目,也可以是多个项目。如果有多个项目,则将它们用垂直线|。

分开。

我需要计算所有这些特定项目的发生次数。我想使用爆炸/字符串的组合,对此我已经在以下文章中找到了答案: Count number of words in a spark dataframe

但是,使用此代码时,它会分割每个字符。我将为您展示一个测试仪:

test = spark.createDataFrame(["number 1","number|t","|"], "string").toDF("randomstring")

test2 = test.withColumn('testing' , f.regexp_replace('randomstring', '|', '&'))

当我使用show on时,会得到以下结果: Testresult

有人知道如何替换|吗?期待您的回复!

0 个答案:

没有答案