Pyspark:用于预处理文本文件的过滤器功能

时间:2019-02-25 21:59:06

标签: pyspark

首先,我很抱歉这是一个菜鸟级的问题。我对pyspark不太熟悉,真的很难找到有关特定过滤器功能的任何有用文档。

我的任务是预处理文本文件,以便计算每个单词的第二个字母。这是我到目前为止的内容:

counts = text_file.flatMap(lambda line: line.split(" ") \
         .map(lambda line: line.lower()) \
         [ FILTER FUNCTION ] \
         [ FILTER FUNCTION ] \
         .map(lambda word: (word, 1)) \
         .reduceByKey(lambda a, b: a + b)

因此,我已将所有字母字符都转换为小写。我仍然没有忽略所有非字母字符,也忽略了一个字符的单词。

对于忽略所有非字母字符,我相信像下面这样就足够了吗?

.filter(lambda x: x.isalpha())

0 个答案:

没有答案