Scala Spark从HDFS集群读取文件

时间:2019-07-09 10:14:35

标签: scala apache-spark hdfs

我正在学习使用Scala开发Spark应用程序。我正迈出第一步。 我在Windows上有我的Scala IDE。如果从本地驱动器读取文件,则配置并运行平稳。但是,我可以访问远程hdfs群集和Hive数据库,并且我想针对该Hadoop群集开发,尝试和测试我的应用程序...但是我不知道如何:(

如果我尝试

val rdd=sc.textFile("hdfs://masternode:9000/user/hive/warehouse/dwh_db_jrtf.db/discipline")

我将收到包含以下内容的错误:

Exception in thread "main" java.io.IOException: Failed on local exception: com.google.protobuf.InvalidProtocolBufferException: Protocol message end-group tag did not match expected tag.; Host Details : local host is: "MyLap/11.22.33.44"; destination host is: "masternode":9000; 

有人可以引导我吗?

1 个答案:

答案 0 :(得分:0)

您可以使用SBT将代码打包在.jar文件中。 scp在您的Node上的文件,然后尝试通过执行spark-submit提交。

spark-submit \
--class <main-class> \
--master <master-url> \
--deploy-mode <deploy-mode> \
--conf <key>=<value> \
... # other options
<application-jar> \
[application-arguments]

您不能以这种方式从Windows计算机访问群集。