应用错误收集

首先，我很抱歉这是一个菜鸟级的问题。我对pyspark不太熟悉，真的很难找到有关特定过滤器功能的任何有用文档。

我的任务是预处理文本文件，以便计算每个单词的第二个字母。这是我到目前为止的内容：

counts = text_file.flatMap(lambda line: line.split(" ") \
         .map(lambda line: line.lower()) \
         [ FILTER FUNCTION ] \
         [ FILTER FUNCTION ] \
         .map(lambda word: (word, 1)) \
         .reduceByKey(lambda a, b: a + b)

因此，我已将所有字母字符都转换为小写。我仍然没有忽略所有非字母字符，也忽略了一个字符的单词。

对于忽略所有非字母字符，我相信像下面这样就足够了吗？

.filter(lambda x: x.isalpha())

Pyspark：用于预处理文本文件的过滤器功能

0 个答案: