HBase的快速Python计算

时间:2016-08-12 15:05:03

标签: python hadoop apache-spark hbase

我有很多时间序列数据存储在HBase中,产品键入了该数据,cf / cq存储了该产品的时间序列数据。我们已经提出了一个Python函数,我们需要将其应用于每条记录。 (有一些时间序列分析,机器学习的东西在Python中很容易,但在其他语言中很复杂,Java,Scala)。

我想知道将该函数应用于HBase中的所有记录的最快方法是什么。

以下是我的选项:

  1. PySpark
  2. MapReduce + Jython
  3. 将HBase变为Something flat + Hadoop Streaming ..
  4. 如果这不是特定于编程的话,我想道歉,但任何反馈或比较将非常感激!

0 个答案:

没有答案