应用错误收集

有没有办法使用Spark和没有Flume将流数据从Kafka加载到HDFS？

时间：2017-10-19 08:35:27

标签： apache-spark apache-kafka hdfs flume

我一直在寻找是否有办法使用火花流和不使用Flume将Kafka的流数据直接加载到HDFS中。我已经尝试过使用Flume（Kafka源和HDFS接收器）。

提前致谢！

2 个答案:

答案 0 :(得分：0)

HDFS connector有Kafka Connect。汇编的文档have more information。

答案 1 :(得分：0)

这是Spark Streaming的一个非常基本的功能。根据您使用的spark和Kafka的版本，您可以查看您正在使用的版本的spark streaming kafka集成文档。保存到HDFS就像rdd.saveAsTextFile("hdfs:///directory/filename")一样简单。

Spark/Kafka integration guide for latest versions

有没有办法从HDFS加载数据到cassandra？
Flume - 有没有办法将avro事件（标题和正文）存储到hdfs中？
有没有办法将数据查找和规范化例程集成到apache spark处理管道中？
如何将流日志数据附加到Flume中的hdfs文件中？有没有人有MR源代码将数据附加到hdfs中的文件
将移动事件数据摄取到hdfs中
有没有办法使用Spark和没有Flume将流数据从Kafka加载到HDFS？
使用flume将数据从kafka主题导入hdfs文件夹
Spark Streaming和Kafka：从HDFS读取文件的最佳方法
有没有办法动态停止Spark结构化流传输？
有什么方法可以将Spark Dataframe中的消息[值列数据]转换为字符串变量？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？