来自HDFS的Spark批量加载Solr

时间:2015-08-08 07:50:49

标签: solr apache-spark hdfs

以前有一种使用MR作业从HDFS批量加载Solr的方法。一个古老的Doug Cutting视频在23:41谈论它 https://www.youtube.com/watch?v=5444z-L2V2A

我还拍下了他的幻灯片的屏幕截图:

enter image description here

因此您以前能够从HDFS读取数据并写出多个Solr分片...每个映射器一个。我怎么用Spark做这样的事情?我发现LucidWorks的Spark-Solr项目有一个SolrRDD,但似乎是使用SolrJ写入Solr。我想从一个类似于MR工作的Spark RDD中将分片写入HDFS。我如何在Spark中做到这一点?

0 个答案:

没有答案