应用错误收集

我正在尝试读取文本文件，并使用spark将其拆分为句子。为此，我需要用“。”分割文件。而不是换行符。我怎样才能做到这一点。

接下来的任务是删除文本中的'\ n'，'，'等以清理文本。

我正在使用sparksession创建一个Spark上下文。

spark = SparkSession\
    .builder\
    .appName("PythonWordCount1")\
    .config("textinputformat.record.delimiter", ".")\ #This doesn't work
    .getOrCreate()
sc = spark.sparkContext
lineList = sc.textFile(filename)
ngramList = lineList.flatMap(lambda line: fn(line, N))

如何在pyspark sparkContext的textFile方法中使用自定义分隔符

0 个答案: