hdfs - 如何从API中提取数据并将其存储在HDFS中

时间：2016-09-15 11:56:07

标签： hdfs etl

我知道水槽和Kafka，但这些都是事件驱动的工具。我不需要它是事件驱动的或实时的，但可能只是安排一天一次的导入。

有哪些数据提取工具可用于从HDFS中的API导入数据？

我不使用HBase，而是使用HDFS和Hive。

我已经使用R语言了很长一段时间，但我正在寻找一个更强大的，可能是Hadoop环境的原生解决方案。

答案 0 :(得分：2)

请考虑使用Scala或Python。有两种方法可以将API从API转移到HDFS。第一种方法是编写一个在边缘节点（基本上只是一个Linux服务器）上运行的脚本，并从API中提取数据并将其放在linux文件系统的目录中。然后，您的脚本可以使用HDFS文件系统命令将数据放入HDFS。

第二种方法是使用Scala或Python和Spark来调用API，并使用Spark提交作业直接将数据加载到HDFS中。同样，这个脚本将从边缘节点运行，它只是利用Spark来绕过必须在LFS中着陆数据。

第一个选项更容易实现。第二个选项值得研究一下，如果您拥有庞大的数据量或可以通过多次调用多个ID /帐户来并行化的API。