应用错误收集

时间：2019-06-18 06:42:34

标签： apache-spark hadoop hive apache-kafka spark-streaming

我是Bigdata和Hive的新手。需要与其他开发人员合作使用Spark Streaming应用程序，其中涉及从Kafka读取内容并将其放在hive / hdfs上。其他开发人员使用/指向hdfs的相同位置，读取配置单元文件并进行进一步处理。

我的开发环境是Windows系统上的Eclipse。其他开发人员环境是他机器上的Eclipse。

由于两者都在处理相同的文件，因此我们之间是否仍要共享hdfs路径？

请分享星火开发团队如何处理这种情况的细节？

建议最佳做法等

非常感谢， Shyam

答案 0 :(得分：1)

您需要设置多节点hadoop集群并将所有开发人员系统IP配置为数据节点，以便它们可以共享相同的HDFS。

Hadoop的主要Conf文件： core-site.xml，hdfs-site.xml，mapred-site.xml和yarn-site.xml

完成后，您可以通过HDFS安装Hive和Spark。