我是否必须将文件从hadoop复制到本地directoy:
hadoop fs -get [hadoop src] [local dst]
为了使用:
https://docs.datastax.com/en/datastax_enterprise/5.0/datastax_enterprise/graph/dgl/dglCSV.html
答案 0 :(得分:0)
不,您不必将数据复制到本地系统。您可以直接在HDFS上引用文件并从那里读取。
def source = File.csv(dfs_uri + "person.csv.gz").gzip().delimiter("|")
load(source).asVertices {
label vertexLabel
key "id"
}
这是映射脚本的示例,其中从HDFS读取压缩的csv文件。 'dfs_uri'是一个命令行参数,它指定存储文件的HDFS目录的URI。