我正在学习使用Scala开发Spark应用程序。我正迈出第一步。 我在Windows上有我的Scala IDE。如果从本地驱动器读取文件,则配置并运行平稳。但是,我可以访问远程hdfs群集和Hive数据库,并且我想针对该Hadoop群集开发,尝试和测试我的应用程序...但是我不知道如何:(
如果我尝试
val rdd=sc.textFile("hdfs://masternode:9000/user/hive/warehouse/dwh_db_jrtf.db/discipline")
我将收到包含以下内容的错误:
Exception in thread "main" java.io.IOException: Failed on local exception: com.google.protobuf.InvalidProtocolBufferException: Protocol message end-group tag did not match expected tag.; Host Details : local host is: "MyLap/11.22.33.44"; destination host is: "masternode":9000;
有人可以引导我吗?
答案 0 :(得分:0)
您可以使用SBT将代码打包在.jar
文件中。 scp
在您的Node上的文件,然后尝试通过执行spark-submit
提交。
spark-submit \
--class <main-class> \
--master <master-url> \
--deploy-mode <deploy-mode> \
--conf <key>=<value> \
... # other options
<application-jar> \
[application-arguments]
您不能以这种方式从Windows计算机访问群集。