我想知道,市场上是否有任何技术或方法可以处理“假设分析”场景数据集。详细介绍一下,我有一个大约40 GB的数据集,在该数据集上将运行一些求解程序并给出结果。以后的报告将使用这些求解器结果生成。
用户将从这些基础数据中创建副本,并将其更改应用于数据,然后运行求解器并检查结果。如果用户从中创建10个副本,则将为400 GB。当前,所有内容都存储在内存中,以加快求解器和报告的速度。这意味着我需要近500 GB的RAM。为了避免这种情况,我正在寻求有关如何在不将所有内容存储在RAM中的情况下进行处理的建议。
诸如Apache Hadoop,Spark,Cassandra之类的技术或其他技术将有助于解决此问题?