我尝试使用Cascading在本地Hadoop集群上创建和执行复杂的数据处理工作流。
我希望创建一个TFIDF向量,以便我可以使用Apache Spark框架在其上应用机器学习算法,例如NaiveBayes。
问题是我创建jar后使用以下命令启动它,程序冻结。 Here是日志文件。
您可以找到来源here。相关的源代码在第6部分。
谢谢!
答案 0 :(得分:0)
我发现了这个问题。集群的节点是不健康的,但日志没有显示和级联冻结,因为它的任务已被UNASSIGNED。
因此,为了解决这个问题,你必须纠正我的情况下的节点运行状况,我只需要纠正hadoop-yarn容器目录以及它的本地namenode目录。
您可能遇到其他错误,所以我建议您检查您的hadoop日志文件和Hadoop节点的WebUI管理员。