Question

是否有可能从Apache Spark中的IBM GPFS（全局并行文件系统）读取数据？

我打算用这样的东西

search_text

而不是

sc.textFile("gfps://...")

要使用的环境是Hortonworks数据平台。我已经阅读了一些articles, deploying IBM Spectrum Scale File System，它说你可以配置HDP，这是GPFS的一个连接器，它可以让你读/写GPFS（可能是MAPR-FS为它的文件系统提供的东西）。有没有人这样做过？

由于

Answer 1

@dumitru您可以使用Sparkling.data库。

更多详情 - http://datascience.ibm.com/blog/making-data-useful-with-the-sparkling-data-library-2/

用于在Apache Spark中使用的HDFS-GPFS连接器

1 个答案: