如何从API中提取数据并将其存储在HDFS中

时间:2016-09-15 11:56:07

标签: hdfs etl

我知道水槽和Kafka,但这些都是事件驱动的工具。我不需要它是事件驱动的或实时的,但可能只是安排一天一次的导入。

有哪些数据提取工具可用于从HDFS中的API导入数据?

我不使用HBase,而是使用HDFS和Hive。

我已经使用R语言了很长一段时间,但我正在寻找一个更强大的,可能是Hadoop环境的原生解决方案。

1 个答案:

答案 0 :(得分:2)

请考虑使用Scala或Python。有两种方法可以将API从API转移到HDFS。第一种方法是编写一个在边缘节点(基本上只是一个Linux服务器)上运行的脚本,并从API中提取数据并将其放在linux文件系统的目录中。然后,您的脚本可以使用HDFS文件系统命令将数据放入HDFS。

第二种方法是使用Scala或Python和Spark来调用API,并使用Spark提交作业直接将数据加载到HDFS中。同样,这个脚本将从边缘节点运行,它只是利用Spark来绕过必须在LFS中着陆数据。

第一个选项更容易实现。第二个选项值得研究一下,如果您拥有庞大的数据量或可以通过多次调用多个ID /帐户来并行化的API。