我正在使用csv文件中的大型数据集(每年8个,为期20年),平均每年有900万个条目,大约有19个变量。 正如我正在进行一些时间序列研究,包括网络分析和PCA,FA等...我认为使用csv文件并没有多大意义,因为查询可能只有四分之一( 2个文件)到4或5年。
然而,我一直在阅读NoSQL在处理大数据时更快更有效率,遗憾的是dplyr或sparklyr等软件包主要用于SQL数据库。 我也没有找到很多在R中使用NoSQL数据库的替代方案。
我在这里遗漏了什么,或者简单地说NoSQL是一个在R中用于我想做的事情的可怕想法吗?