应用错误收集

使用Pyspark将数据存储到Accumulo中

时间：2015-10-12 02:37:03

标签： python apache-spark pyspark accumulo

我正在尝试使用Pyspark（Python + Spark）将数据存储到Accumulo中。现在我使用pyaccumulo库通过使用pyFiles参数将pyaccumulo egg文件传递给SparkContext来将数据写入Accumulo。我想知道是否有更好的方法来做到这一点。我已经看过Cassandra和HBase输出格式的例子，并且想知道是否可以为Accumulo做类似的事情。 Cassandra和HBase似乎正在使用saveAsNewAPIHadoopDataset（conf，keyConv，valueConv）函数并传递一个配置字典，一个keyconverter和一个valueconverter。有没有人知道为Accumulo传递给saveAsNewAPIHadoopDataset（）的相应值是什么？

1 个答案:

答案 0 :(得分：0)

猜测，因为我不知道它应该如何运作，你需要像

这样的东西

AccumuloOutputFormat.ConnectorInfo.principal
AccumuloOutputFormat.ConnectorInfo.token
AccumuloOutputFormat.InstanceOpts.zooKeepers
AccumuloOutputFormat.InstanceOpts.name

要获取完整的属性列表，我将运行一个正常的MapReduce示例（http://accumulo.apache.org/1.7/examples/mapred.html）并查看配置值。