当我<div class="col-sm {% if form.letzte_ausgabe.errors %} has-danger {% endif %}">
<label class="col-form-label" for="{{ form.letzte_ausgabe.id_for_label }}">{{ form.letzte_ausgabe.label }}</label>
<input id="{{ form.letzte_ausgabe.id_for_label }}" class="form-control" type="text" value="{{ form.letzte_ausgabe.value }}" name="{{ form.letzte_ausgabe.html_name }}" placeholder="MM/JJJJ" aria-describedby="{{ form.letzte_ausgabe.id_for_label }}Help">
{% if form.letzte_ausgabe.help_text %}<small id="{{ form.letzte_ausgabe.id_for_label }}Help" class="form-text text-muted">{{ form.letzte_ausgabe.help_text }}</small>{% endif %}
</div>
时
Spark在RAM(内存)中创建RDD。
群集集体内存应该大于文件“abc.txt”的大小吗?
我的工作节点有磁盘空间,因此在读取texfile时可以使用磁盘空间来创建RDD吗?如果是这样怎么办?
如何处理不适合内存的大数据?
答案 0 :(得分:1)
当我执行sc.textFile(&#34; abc.txt&#34;)时,Spark会在RAM(内存)中创建RDD。
以上观点并非如此。在Spark中,它们被称为transformations,称为actions。 sc.textFile("abc.txt")
是转换操作,它不会直接加载数据,除非您触发任何操作,例如count()
。
为了集体回答你的所有问题,我建议你理解spark execution works的方式。它们被称为逻辑和物理计划。作为物理计划的一部分,它在启动作业之前进行成本计算(跨集群的可用资源计算)。如果你了解它们,你将会清楚地了解你的所有问题。
答案 1 :(得分:0)
您首先假设不正确:
Spark在RAM(内存)中创建RDD。
Spark不会在“内存中”创建RDD。它使用内存,但不限于内存数据处理。所以:
集群集合内存应该大于文件“abc.txt”的大小吗?
没有
我的工作节点有磁盘空间,因此在读取texfile时可以使用磁盘空间来创建RDD吗?如果是这样怎么办?
无需特殊步骤。
如何处理不适合内存的大数据?
见上文。