我正在尝试使用Pyspark(Python + Spark)将数据存储到Accumulo中。现在我使用pyaccumulo库通过使用pyFiles参数将pyaccumulo egg文件传递给SparkContext来将数据写入Accumulo。我想知道是否有更好的方法来做到这一点。我已经看过Cassandra和HBase输出格式的例子,并且想知道是否可以为Accumulo做类似的事情。 Cassandra和HBase似乎正在使用saveAsNewAPIHadoopDataset(conf,keyConv,valueConv)函数并传递一个配置字典,一个keyconverter和一个valueconverter。有没有人知道为Accumulo传递给saveAsNewAPIHadoopDataset()的相应值是什么?
答案 0 :(得分:0)
猜测,因为我不知道它应该如何运作,你需要像
这样的东西要获取完整的属性列表,我将运行一个正常的MapReduce示例(http://accumulo.apache.org/1.7/examples/mapred.html)并查看配置值。