首先,我很抱歉这是一个菜鸟级的问题。我对pyspark不太熟悉,真的很难找到有关特定过滤器功能的任何有用文档。
我的任务是预处理文本文件,以便计算每个单词的第二个字母。这是我到目前为止的内容:
counts = text_file.flatMap(lambda line: line.split(" ") \
.map(lambda line: line.lower()) \
[ FILTER FUNCTION ] \
[ FILTER FUNCTION ] \
.map(lambda word: (word, 1)) \
.reduceByKey(lambda a, b: a + b)
因此,我已将所有字母字符都转换为小写。我仍然没有忽略所有非字母字符,也忽略了一个字符的单词。
对于忽略所有非字母字符,我相信像下面这样就足够了吗?
.filter(lambda x: x.isalpha())