我正在尝试读取文本文件,并使用spark将其拆分为句子。为此,我需要用“。”分割文件。而不是换行符。我怎样才能做到这一点。
接下来的任务是删除文本中的'\ n',','等以清理文本。
我正在使用sparksession创建一个Spark上下文。
spark = SparkSession\
.builder\
.appName("PythonWordCount1")\
.config("textinputformat.record.delimiter", ".")\ #This doesn't work
.getOrCreate()
sc = spark.sparkContext
lineList = sc.textFile(filename)
ngramList = lineList.flatMap(lambda line: fn(line, N))