以前有一种使用MR作业从HDFS批量加载Solr的方法。一个古老的Doug Cutting视频在23:41谈论它 https://www.youtube.com/watch?v=5444z-L2V2A
我还拍下了他的幻灯片的屏幕截图:
因此您以前能够从HDFS读取数据并写出多个Solr分片...每个映射器一个。我怎么用Spark做这样的事情?我发现LucidWorks的Spark-Solr项目有一个SolrRDD,但似乎是使用SolrJ写入Solr。我想从一个类似于MR工作的Spark RDD中将分片写入HDFS。我如何在Spark中做到这一点?