我需要将数据存储在hbase中以便在R中进行分析,但我需要通过Spark来完成,因为数据不适合内存。 有人知道如何通过R中的Spark访问hbase中的数据吗?
我搜索了网络和SO,但没有快乐。我发现了一些页面,解释了如何从R中访问hbase中的数据但是他们不是通过Spark来完成的。我所见的所有页面都解释了如何访问R和Spark中的数据(使用sparklyr),提供了虹膜数据集的示例:(
非常感谢任何帮助!
答案 0 :(得分:0)
一个选项似乎是安装rhbase并从hbase获取数据并将其保存到csv,然后使用sparkr从csv文件中读取数据并继续分析等。blogs.wandisco.com/2014/08/19/experiences-r-big-data/
有更好的方法吗?一个不需要将数据保存到csv文件?