应用错误收集

GroupByKey变换中Iterables的性质

时间：2017-10-16 07:05:42

标签： google-cloud-dataflow apache-beam

我正在通过Java SDK使用Google Dataflow。 GroupByKey转换返回＆＃34;值＆＃34;中的Iterable。 KV PCollection的一部分。假设我们在GroupByKey变换的KV结果上运行ParDo。任何人都可以让我知道＆＃34;自然＆＃34; Iterable对象：Iterable是否包含一个完全预先填充的列表，这意味着假设Iterable中有1000个Integers，它会消耗该节点上1000 * sizeof（Integer）的内存。或者，是否可以评估Iterable＆＃34;懒惰＆＃34; （类似于Python中的生成器），无论Iterable有多大，都能确保极少的内存消耗。

1 个答案:

答案 0 :(得分：1)

这些迭代是懒惰的，至少在Dataflow运行时运行时，允许每个键保存的数据多于内存中的数据。当你通过Iterable时，键的值会懒洋洋地加载到内存中。

多次迭代的循环？
番石榴：Iterables转换方法用法
NSString的性质
spark中groupbykey的低性能
Dataflow GroupByKey变换拆分输入行
groupBykey in spark
groupByKey函数的机制
将GroupBy +聚合转换为groupByKey
GroupByKey变换中Iterables的性质
GroupByKey变换的早期结果

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？