我有以下要求:
有一个上游系统在数据库表中创建一个键入口。该条目表示数据库表(oracle)中有一组数据可用。我们必须摄取这些数据并将其保存为镶木地板文件。不需要处理数据。每次有新的密钥输入时,都应该开始这个摄取过程。
对于此问题陈述,我们计划使用数据库轮询器来轮询密钥条目。读取该条目后,我们需要从Oracle表中提取数据。为了这个摄取目的,哪种工具最好?是Kafka,Sqoop,Spark-SQL等吗?请帮忙。
我们也需要摄取csv文件。只有在完全写入文件时,才需要开始摄取它。请告诉我如何执行此操作。
答案 0 :(得分:2)
对于摄取关系数据,您可以使用sqoop,对于您的场景,您可以查看https://sqoop.apache.org/docs/1.4.2/SqoopUserGuide.html#_incremental_imports
编写sqoop增量作业并使用cron计划它,每次执行sqoop作业时你都会在hdfs中更新数据。
对于.csv文件,您可以使用水槽。参考, https://www.rittmanmead.com/blog/2014/05/trickle-feeding-webserver-log-files-to-hdfs-using-apache-flume/
答案 1 :(得分:0)
使用Sqoop,您可以从Hadoop文件系统中的数据库导入数据。