我是Apache Spark的新手,我正试图从我正在其上运行的scala脚本中加载一些Elasticsearch数据。
这是我的剧本:
commonCompletion
它确实有效,但是它非常慢。我在这里做错什么了吗?
连接性根本不是问题,我要查询的索引大约有20万个文档,但是我将查询限制为5个结果。
再次,我必须通过在命令行中传递elasticsearch-hadoop依赖项作为参数来运行spark-shell(或提交)(-packages org.elasticsearch:elasticsearch-hadoop:6.3.0)。这是正确的方法吗?有什么办法可以构建包括所有依赖项的sbt软件包吗?
非常感谢
答案 0 :(得分:1)
您是否在单台计算机上本地运行?如果是这样,那可能很正常...您 将不得不检查您的网络,Spark Web UI等...
关于提交所有依赖项而无需在外壳中使用spark-submit指定它们,通常我们使用sbt程序集创建FAT jar。
http://queirozf.com/entries/creating-scala-fat-jars-for-spark-on-sbt-with-sbt-assembly-plugin