我试图了解Spark以及如何使用第三方库,这些库并不是为了处理hdfs文件系统路径,而是仅用于本地文件系统。
在functions()中是否可以/建议从HDFS加载文件并将其复制到本地文件?在一个函数中,我处于一个在单个节点上执行的孤立代码中,对吧?因此,将文件复制到临时文件是在功能安全或至少不是问题吗?
HDFS是否还有其他最佳实践未发现第三方库?
答案 0 :(得分:0)
你可以使用下一个scala代码执行此操作,它是安全的,没什么特别的:
logData = sc.textFile(logFile) // from HDFS
logData.saveAsTextFile("/tmp/save-logData") // save it to local dir