从hdfs导入文件期间namenode,localhost出错

时间:2015-12-10 06:40:43

标签: python apache-spark hdfs

我使用python-spark来解决字数问题。我导入位于我的hdfs中的文本文件的代码行是:

file="hdfs://localhost:50070/user/hduser/input/sample.txt"
input=sc.textFile(file)

当我执行程序时,我收到以下错误:

  

py4j.protocol.Py4JJavaError:调用时发生错误   o25.collect。 :java.io.IOException:本地异常失败:   com.google.protobuf.InvalidProtocolBufferException:协议消息   end-group标签与预期标签不匹配。主机详细信息:本地主机   是:“quickstart.cloudera / 127.0.0.1”;目的地主机是:   “本地主机”:50070;

请帮我根除它。我被卡住了。

1 个答案:

答案 0 :(得分:1)

尝试在input=sc.textFile(file)

中运行file="/user/hduser/input/sample.txt"

您不需要hdfs:// localhost:50070 /