应用错误收集

时间：2016-11-17 11:33:29

标签： apache-spark apache-kafka apache-spark-sql sqoop

我有以下要求：

有一个上游系统在数据库表中创建一个键入口。该条目表示数据库表（oracle）中有一组数据可用。我们必须摄取这些数据并将其保存为镶木地板文件。不需要处理数据。每次有新的密钥输入时，都应该开始这个摄取过程。

对于此问题陈述，我们计划使用数据库轮询器来轮询密钥条目。读取该条目后，我们需要从Oracle表中提取数据。为了这个摄取目的，哪种工具最好？是Kafka，Sqoop，Spark-SQL等吗？请帮忙。

我们也需要摄取csv文件。只有在完全写入文件时，才需要开始摄取它。请告诉我如何执行此操作。

答案 0 :(得分：2)

对于摄取关系数据，您可以使用sqoop，对于您的场景，您可以查看https://sqoop.apache.org/docs/1.4.2/SqoopUserGuide.html#_incremental_imports

编写sqoop增量作业并使用cron计划它，每次执行sqoop作业时你都会在hdfs中更新数据。

答案 1 :(得分：0)

使用Sqoop，您可以从Hadoop文件系统中的数据库导入数据。