是否有可能从Apache Spark中的IBM GPFS(全局并行文件系统)读取数据?
我打算用这样的东西
search_text
而不是
sc.textFile("gfps://...")
要使用的环境是Hortonworks数据平台。我已经阅读了一些articles, deploying IBM Spectrum Scale File System,它说你可以配置HDP,这是GPFS的一个连接器,它可以让你读/写GPFS(可能是MAPR-FS为它的文件系统提供的东西)。有没有人这样做过?
由于
答案 0 :(得分:0)
@dumitru您可以使用Sparkling.data库。
更多详情 - http://datascience.ibm.com/blog/making-data-useful-with-the-sparkling-data-library-2/