我每天都有100G文本文件,我希望创建一个高效的数据库"从Spark可以访问。通过"数据库"我的意思是能够对数据执行快速查询(返回大约一年),并且每天递增地添加数据,最好没有读锁定。
假设我想使用Spark SQL和镶木地板,那么实现这一目标的最佳方法是什么?
随意提出其他选择,但我们假设我现在正在使用镶木地板,因为从我所读到的内容中,这将对其他许多人有所帮助。
答案 0 :(得分:2)
我的0级设计
答案 1 :(得分:0)
我的系统要求非常相似。我想说如果加载全年的数据 - 一天100克将是36T数据,如果你需要每天加载36TB,那么无论如何都不会很快。更好地保存处理过的每日数据(例如计数,总和,不同的结果),并使用它来回溯一整年。