应用错误收集

以前有一种使用MR作业从HDFS批量加载Solr的方法。一个古老的Doug Cutting视频在23:41谈论它 https://www.youtube.com/watch?v=5444z-L2V2A

我还拍下了他的幻灯片的屏幕截图：

因此您以前能够从HDFS读取数据并写出多个Solr分片...每个映射器一个。我怎么用Spark做这样的事情？我发现LucidWorks的Spark-Solr项目有一个SolrRDD，但似乎是使用SolrJ写入Solr。我想从一个类似于MR工作的Spark RDD中将分片写入HDFS。我如何在Spark中做到这一点？

来自HDFS的Spark批量加载Solr

0 个答案: