如何在pyspark sparkContext的textFile方法中使用自定义分隔符

时间:2019-02-14 15:15:17

标签: python apache-spark pyspark delimiter

我正在尝试读取文本文件,并使用spark将其拆分为句子。为此,我需要用“。”分割文件。而不是换行符。我怎样才能做到这一点。

接下来的任务是删除文本中的'\ n',','等以清理文本。

我正在使用sparksession创建一个Spark上下文。

spark = SparkSession\
    .builder\
    .appName("PythonWordCount1")\
    .config("textinputformat.record.delimiter", ".")\ #This doesn't work
    .getOrCreate()
sc = spark.sparkContext
lineList = sc.textFile(filename)
ngramList = lineList.flatMap(lambda line: fn(line, N))

0 个答案:

没有答案