用于在Apache Spark中使用的HDFS-GPFS连接器

时间:2017-10-20 12:59:09

标签: apache-spark hdfs hortonworks-data-platform biginsights

是否有可能从Apache Spark中的IBM GPFS(全局并行文件系统)读取数据?

我打算用这样的东西

search_text

而不是

sc.textFile("gfps://...")

要使用的环境是Hortonworks数据平台。我已经阅读了一些articles, deploying IBM Spectrum Scale File System,它说你可以配置HDP,这是GPFS的一个连接器,它可以让你读/写GPFS(可能是MAPR-FS为它的文件系统提供的东西)。有没有人这样做过?

由于

1 个答案:

答案 0 :(得分:0)

@dumitru您可以使用Sparkling.data库。

更多详情 - http://datascience.ibm.com/blog/making-data-useful-with-the-sparkling-data-library-2/