我使用python-spark来解决字数问题。我导入位于我的hdfs中的文本文件的代码行是:
file="hdfs://localhost:50070/user/hduser/input/sample.txt"
input=sc.textFile(file)
当我执行程序时,我收到以下错误:
py4j.protocol.Py4JJavaError:调用时发生错误 o25.collect。 :java.io.IOException:本地异常失败: com.google.protobuf.InvalidProtocolBufferException:协议消息 end-group标签与预期标签不匹配。主机详细信息:本地主机 是:“quickstart.cloudera / 127.0.0.1”;目的地主机是: “本地主机”:50070;
请帮我根除它。我被卡住了。
答案 0 :(得分:1)
尝试在input=sc.textFile(file)
file="/user/hduser/input/sample.txt"
您不需要hdfs:// localhost:50070 /