应用错误收集

时间：2011-05-17 16:46:30

标签： hadoop protocol-buffers thrift hive hadoop-plugins

（我确定存在类似的问题，但我还没有找到我正在寻找的答案。）

我正在使用 Hadoop 和 Hive （对于熟悉SQL熟悉的开发人员）每晚批量处理多个TB的数据。从几百个大量CSV文件的输入中，我输出了四个或五个相当大的CSV文件。显然，Hive将这些存储在HDFS中。最初这些输入文件是从一个巨大的SQL数据仓库中提取的。

Hadoop对它的功能非常有价值。但是处理输出的行业标准是什么？现在我正在使用shell脚本将这些文件复制回本地文件夹并将它们上传到另一个数据仓库。

这个问题:( Hadoop and MySQL Integration）将重新导入Hadoop导出的做法称为非标准。 如何使用BI工具浏览数据，或将结果集成到我的ASP.NET应用程序中？ Thrift？ protobuf的？ Hive ODBC API驱动程序？必须有更好的方式.....

启发我。

答案 0 :(得分：3)

在foursquare上我正在使用Hive的Thrift驱动程序根据需要将数据放入数据库/电子表格中。

我维护一个通过Hive驱动程序执行作业的作业服务器，然后将输出移动到需要的地方。直接使用thrift非常简单，允许您使用任何编程语言。

如果你直接处理hadoop（并且不能使用它），你应该看看Sqoop, built by Cloudera

Sqoop专为批量移动数据而设计（而Flume旨在实时移动数据，并且似乎更多地将数据放入hdf而不是将其取出）。

希望有所帮助。