朱莉娅在Hadoop上?

时间:2014-06-23 22:41:38

标签: hadoop apache-spark julia

Hadoop 工程师,主要关注机器学习和数据挖掘。利用数据位置利用率和现代工具(如Spark(尤其是MLlib),分析数TB的数据变得轻松愉快。到目前为止,我使用Python API来Spark(PySpark)并且对它非常满意。

然而,最近出现了新的科学计算强大的参与者 - Julia。凭借其JIT编译和内置并行性(以及其他功能),它可能成为传统工具的良好竞争者。所以我很感兴趣,如果我在某个时候切换到Julia,在现有的Hadoop堆栈上使用它有什么选择?是否有任何绑定或桥接允许运行Julia脚本并仍然使用HDFS的数据位置?

编辑。要说清楚:我不会问最好的工具是什么,不是将Julia(或Hadoop)与其他工​​具进行比较而不是推广任何计算堆栈。我的问题是关于可能有助于集成两种技术的项目。没有意见,没有长时间的审议 - 只是链接到项目和简短描述。

1 个答案:

答案 0 :(得分:19)

编辑:我还应该指出JavaCall包,它可以允许在这个领域中使用现有的Java库。 https://github.com/aviks/JavaCall.jl

(编辑:最初由Elly开发人员链接到现已弃用的HDFS绑定项目:https://github.com/tanmaykm/HDFS.jl