pyspark groupByKey的Iterable对象(ResultIterable)有什么优点呢?

时间:2017-10-14 14:59:01

标签: python apache-spark pyspark iterable

groupByKey转换后,我没有找到对结果结构有关的任何问题。 ResultIterablegroupByKey对象可以执行哪些操作?我本来期望用密钥返回一个列表。我可以将其转换为列表,但不确定我是否遗漏了某些内容

1 个答案:

答案 0 :(得分:2)

  

这有什么好处?

Serialization

A special result iterable. This is used because the standard
iterator can not be pickled
  

我可以使用“ResultIterable”

做什么

您可以对任何Iterable对象执行相同的操作:

class ResultIterable(collections.Iterable):

specifically you can assume它实现了__iter__ dunder方法 - 它意味着它可以被迭代或转换为另一个集合,并且可以在需要可迭代对象时使用。

  

我原本期待一个清单

list需要特定的集合实现。 Iterable允许其他选项,包括大于内存集合,并且可以在需要时更改特定实现。