使用Pyspark将数据存储到Accumulo中

时间:2015-10-12 02:37:03

标签: python apache-spark pyspark accumulo

我正在尝试使用Pyspark(Python + Spark)将数据存储到Accumulo中。现在我使用pyaccumulo库通过使用pyFiles参数将pyaccumulo egg文件传递给SparkContext来将数据写入Accumulo。我想知道是否有更好的方法来做到这一点。我已经看过Cassandra和HBase输出格式的例子,并且想知道是否可以为Accumulo做类似的事情。 Cassandra和HBase似乎正在使用saveAsNewAPIHadoopDataset(conf,keyConv,valueConv)函数并传递一个配置字典,一个keyconverter和一个valueconverter。有没有人知道为Accumulo传递给saveAsNewAPIHadoopDataset()的相应值是什么?

1 个答案:

答案 0 :(得分:0)

猜测,因为我不知道它应该如何运作,你需要像

这样的东西
  • AccumuloOutputFormat.ConnectorInfo.principal
  • AccumuloOutputFormat.ConnectorInfo.token
  • AccumuloOutputFormat.InstanceOpts.zooKeepers
  • AccumuloOutputFormat.InstanceOpts.name

要获取完整的属性列表,我将运行一个正常的MapReduce示例(http://accumulo.apache.org/1.7/examples/mapred.html)并查看配置值。