Apache Spark-从Elasticsearch加载数据太慢

时间:2018-07-09 14:05:22

标签: scala apache-spark elasticsearch

我是Apache Spark的新手,我正试图从我正在其上运行的scala脚本中加载一些Elasticsearch数据。

这是我的剧本:

commonCompletion

它确实有效,但是它非常慢。我在这里做错什么了吗?

连接性根本不是问题,我要查询的索引大约有20万个文档,但是我将查询限制为5个结果。

再次,我必须通过在命令行中传递elasticsearch-hadoop依赖项作为参数来运行spark-shell(或提交)(-packages org.elasticsearch:elasticsearch-hadoop:6.3.0)。这是正确的方法吗?有什么办法可以构建包括所有依赖项的sbt软件包吗?

非常感谢

1 个答案:

答案 0 :(得分:1)

您是否在单台计算机上本地运行?如果是这样,那可能很正常...您 将不得不检查您的网络,Spark Web UI等...

关于提交所有依赖项而无需在外壳中使用spark-submit指定它们,通常我们使用sbt程序集创建FAT jar。

http://queirozf.com/entries/creating-scala-fat-jars-for-spark-on-sbt-with-sbt-assembly-plugin