Hadoop基础:我如何处理输出?

时间:2011-05-17 16:46:30

标签: hadoop protocol-buffers thrift hive hadoop-plugins

(我确定存在类似的问题,但我还没有找到我正在寻找的答案。)

我正在使用 Hadoop Hive (对于熟悉SQL熟悉的开发人员)每晚批量处理多个TB的数据。从几百个大量CSV文件的输入中,我输出了四个或五个相当大的CSV文件。显然,Hive将这些存储在HDFS中。最初这些输入文件是从一个巨大的SQL数据仓库中提取的。

Hadoop对它的功能非常有价值。但是处理输出的行业标准是什么?现在我正在使用shell脚本将这些文件复制回本地文件夹并将它们上传到另一个数据仓库。

这个问题:( Hadoop and MySQL Integration)将重新导入Hadoop导出的做法称为非标准。 如何使用BI工具浏览数据,或将结果集成到我的ASP.NET应用程序中? Thrift? protobuf的? Hive ODBC API驱动程序?必须有更好的方式.....

启发我。

1 个答案:

答案 0 :(得分:3)

在foursquare上我正在使用Hive的Thrift驱动程序根据需要将数据放入数据库/电子表格中。

我维护一个通过Hive驱动程序执行作业的作业服务器,然后将输出移动到需要的地方。直接使用thrift非常简单,允许您使用任何编程语言。

如果你直接处理hadoop(并且不能使用它),你应该看看Sqoop, built by Cloudera

Sqoop专为批量移动数据而设计(而Flume旨在实时移动数据,并且似乎更多地将数据放入hdf而不是将其取出)。

希望有所帮助。