应用错误收集

如何使用文件系统输入中的spark spark

时间：2016-05-25 08:55:33

标签： apache-spark spark-streaming

我想使用spark streaming并从文件系统（比如HDFS）提供输入。我该怎么做

1 个答案:

答案 0 :(得分：1)

例如，使用JavaStreamingContext时，有适当的方法方法，例如textFileStream()读取任何文本文件fileStream()以从Hadoop兼容的文件系统中读取文件。作为API参数传递的目录将受到监视以进行更改。如果您要移动任何文件，Streaming应用程序将根据批处理间隔选择它。

请查看github处的简单示例，以便从Twitter或文件系统中读取数据。

希望这会有所帮助。

Spark：如何将SparkContext.textFile用于本地文件系统
Spark流为每个输入文件创建一个任务
wordCounts.dstream（）。saveAsTextFiles（“LOCAL FILE SYSTEM PATH”，“txt”）;不写入文件
如何从Spark中的s3读取.seq文件
试图从日志文件
如何使用文件系统输入中的spark spark
如何将每个输入流中的数据集合并为一个
Spark文件流中的零输入速率
如何保存前一批中的DSStream并在下一批中使用：Spark Streaming
如何在Spark Streaming中从hdfs读取更新的文件

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？