PySpark:计算平面图中的每个元素

时间:2019-02-05 02:54:52

标签: pyspark

我无法计算在PySpark中创建的列表中的每个元素。

这是我正在使用的东西:

test2 = words.filter(lambda line:re.match(r'^ [AEIOU]',line))。take(10)

  
    
      

test2       [u'EBook',u'Author:',u'英语',u'OF',u'EBOOK',u'Inc。,',u'Etext',u'Inc。',u'Etexts' ,u'Etext']

    
  

现在我要确认test2的计数为10。但是每次我使用test2.count()时,都会给我一个错误:

回溯(最近通话最近):   文件“”,第1行,位于 TypeError:count()仅接受一个参数(给定0)

有人可以帮助我学习如何正确计算元素吗?

谢谢!

1 个答案:

答案 0 :(得分:0)

test2 是一个列表,因此您应该执行len(test2)来查找元素数。在列表上调用函数 count()时,将返回您作为参数传递的内容出现的次数。