Question

我是Apache Spark的新手，我正试图从我正在其上运行的scala脚本中加载一些Elasticsearch数据。

这是我的剧本：

commonCompletion

它确实有效，但是它非常慢。我在这里做错什么了吗？

连接性根本不是问题，我要查询的索引大约有20万个文档，但是我将查询限制为5个结果。

再次，我必须通过在命令行中传递elasticsearch-hadoop依赖项作为参数来运行spark-shell（或提交）（-packages org.elasticsearch：elasticsearch-hadoop：6.3.0）。这是正确的方法吗？有什么办法可以构建包括所有依赖项的sbt软件包吗？

非常感谢

Answer 1

您是否在单台计算机上本地运行？如果是这样，那可能很正常...您将不得不检查您的网络，Spark Web UI等...

关于提交所有依赖项而无需在外壳中使用spark-submit指定它们，通常我们使用sbt程序集创建FAT jar。

http://queirozf.com/entries/creating-scala-fat-jars-for-spark-on-sbt-with-sbt-assembly-plugin

Apache Spark-从Elasticsearch加载数据太慢

1 个答案: