我只是Big Data世界的新手,所以我不知道如何构建一个仪表板应用程序,用于可视化Hadoop中日志文件中的数据。搜索后,我可以想到一些解决方案:
1 /使用Kafka来提取流数据
2 /流数据处理:流式Spark或Apache Flink
3 /前端 - >可视化数据:使用d3js
我错过了什么吗? Spark和Flink我应该使用哪一个? 我有一组机器,我安装了Ambari,HDP 2.4.2,HDFS 2.7,YARN 2.7,Spark 1.6,Kafka。
如果可能的话,你们可以给我一些教程来构建这样的应用程序吗?任何书籍或课程?
非常感谢。
P / S:
我已经阅读了databrick的git书,但它只提到了spark。我还找到了一些如何使用Flink,Elasticsearch和Kibana进行分析的教程,但是没有提到如何与Ambari Server结合使用,那就是我遇到的问题