火花流:我想做一些流练习,如何获得良好的流数据源?

时间:2019-10-15 07:36:26

标签: apache-spark spark-streaming

我想做一些流练习,如何获得一个好的流数据源? 我正在寻找结构流数据源和非结构流数据源。 推特会工作吗?

1 个答案:

答案 0 :(得分:0)

本地文件可以用作结构化流式传输中的源,例如:

let sql = "INSERT INTO *TABLE_NAME* (calumn1, calumn2, calumn3) VALUES (value1, value2, value3)";
conn.query(sql, (err, results) => {
    //~
}

借助此工具,您可以非常轻松地进行数据转换和输出的实验,并且在线有许多示例数据集,例如在kaggle

如果您想拥有类似生产的内容,twitter api是一个不错的选择。不过,您将需要某种消息传递中间件,例如Kafka或Azure Event Hub-一个简单的应用程序可以在其中发送推文,并且您可以从Spark轻松地将其提取。您也可以在输入端自己生成数据,而不必依赖Twitter。