Question

我正在学习使用Scala开发Spark应用程序。我正迈出第一步。我在Windows上有我的Scala IDE。如果从本地驱动器读取文件，则配置并运行平稳。但是，我可以访问远程hdfs群集和Hive数据库，并且我想针对该Hadoop群集开发，尝试和测试我的应用程序...但是我不知道如何:(

如果我尝试

val rdd=sc.textFile("hdfs://masternode:9000/user/hive/warehouse/dwh_db_jrtf.db/discipline")

我将收到包含以下内容的错误：

Exception in thread "main" java.io.IOException: Failed on local exception: com.google.protobuf.InvalidProtocolBufferException: Protocol message end-group tag did not match expected tag.; Host Details : local host is: "MyLap/11.22.33.44"; destination host is: "masternode":9000;

有人可以引导我吗？

Answer 1

您可以使用SBT将代码打包在.jar文件中。 scp在您的Node上的文件，然后尝试通过执行spark-submit提交。

spark-submit \
--class <main-class> \
--master <master-url> \
--deploy-mode <deploy-mode> \
--conf <key>=<value> \
... # other options
<application-jar> \
[application-arguments]

您不能以这种方式从Windows计算机访问群集。

Scala Spark从HDFS集群读取文件

1 个答案: