在Rapidminer的实现中,我有一个包含3列(交易ID,产品描述,价值)和大约100万行的数据集。
我正在尝试应用FP-Growth和Create Association但是由于内存在"数字到二项式"我的过程的阶段。我已经分配了56GB的RAM。
"此过程需要的内存超过最大可用内存量。你可以离开......" attached example
我在这里做错了吗?我原以为56GB的RAM足以应付这个问题。
非常感谢任何帮助
感谢。
答案 0 :(得分:0)
听起来您使用的是较旧版本的RapidMiner。在6.5版本中,RapidMiner的许可证模型已更改,并且不再存在任何内存限制。下面的过程在我的机器上运行,在3秒内分配10gb RAM:
<process version="7.0.001">
<context>
<input/>
<output/>
<macros/>
</context>
<operator activated="true" class="process" compatibility="7.0.001" expanded="true" name="Process">
<process expanded="true">
<operator activated="true" class="generate_data" compatibility="7.0.001" expanded="true" height="68" name="Generate Data" width="90" x="112" y="34">
<parameter key="number_examples" value="1000000"/>
<parameter key="number_of_attributes" value="2"/>
</operator>
<operator activated="true" class="numerical_to_binominal" compatibility="7.0.001" expanded="true" height="82" name="Numerical to Binominal" width="90" x="313" y="34">
<parameter key="min" value="-10.0"/>
</operator>
<connect from_op="Generate Data" from_port="output" to_op="Numerical to Binominal" to_port="example set input"/>
<connect from_op="Numerical to Binominal" from_port="example set output" to_port="result 1"/>
<portSpacing port="source_input 1" spacing="0"/>
<portSpacing port="sink_result 1" spacing="0"/>
<portSpacing port="sink_result 2" spacing="0"/>
</process>
</operator>
</process>