python - hadoop

hadoop

时间：2015-04-22 14:12:49

标签： python django hadoop

我正在使用Python-Django Framework开发ELT工具。

在该工具中，我们可以安排作业并将其发布在Apache Oozie中。

我需要为每项工作实施数据沿袭报告。总的来说，我已经探索过，＆＃34;什么是数据沿袭＆＃34;在维基。

我需要帮助 - 我应该如何实现此数据沿袭？不使用任何外部工具和Apache Falcon。

1 个答案:

答案 0 :(得分：0)

因为您正在使用Python-Django Framework并且正在使用Oozie完成大部分作业调度，所以建议使用使用Falcon的Lineage跟踪。它易于使用并跟踪hadoop生态系统中的血统。

但是，如果您不想使用Apache Falcon，您可以随时实现任何图形数据库（Neo4J或TitanDB）并使用D3.js绘制图形。为此，您需要以特定模式将Graphage（图形）变量存储在GraphDB中。一旦在GraphDB中设置了所有内容，就可以很容易地编写D3 java脚本来检索它们并绘制图形。

您可以在此处阅读有关D3的更多信息：

http://chimera.labs.oreilly.com/books/1230000000345/index.html