我是Bigdata和Hive的新手。 需要与其他开发人员合作使用Spark Streaming应用程序,其中涉及从Kafka读取内容并将其放在hive / hdfs上。其他开发人员使用/指向hdfs的相同位置,读取配置单元文件并进行进一步处理。
我的开发环境是Windows系统上的Eclipse。 其他开发人员环境是他机器上的Eclipse。
由于两者都在处理相同的文件,因此我们之间是否仍要共享hdfs路径?
请分享星火开发团队如何处理这种情况的细节?
建议最佳做法等
非常感谢, Shyam
答案 0 :(得分:1)
您需要设置多节点hadoop集群并将所有开发人员系统IP配置为数据节点,以便它们可以共享相同的HDFS。
Hadoop的主要Conf文件: core-site.xml,hdfs-site.xml,mapred-site.xml和yarn-site.xml
完成后,您可以通过HDFS安装Hive和Spark。
请参阅安装链接: https://www.linode.com/docs/databases/hadoop/how-to-install-and-set-up-hadoop-cluster/ https://dzone.com/articles/setting-up-multi-node-hadoop-cluster-just-got-easy-2