(我确定存在类似的问题,但我还没有找到我正在寻找的答案。)
我正在使用 Hadoop 和 Hive (对于熟悉SQL熟悉的开发人员)每晚批量处理多个TB的数据。从几百个大量CSV文件的输入中,我输出了四个或五个相当大的CSV文件。显然,Hive将这些存储在HDFS中。最初这些输入文件是从一个巨大的SQL数据仓库中提取的。
Hadoop对它的功能非常有价值。但是处理输出的行业标准是什么?现在我正在使用shell脚本将这些文件复制回本地文件夹并将它们上传到另一个数据仓库。
这个问题:( Hadoop and MySQL Integration)将重新导入Hadoop导出的做法称为非标准。 如何使用BI工具浏览数据,或将结果集成到我的ASP.NET应用程序中? Thrift? protobuf的? Hive ODBC API驱动程序?必须有更好的方式.....
启发我。
答案 0 :(得分:3)
在foursquare上我正在使用Hive的Thrift驱动程序根据需要将数据放入数据库/电子表格中。
我维护一个通过Hive驱动程序执行作业的作业服务器,然后将输出移动到需要的地方。直接使用thrift非常简单,允许您使用任何编程语言。
如果你直接处理hadoop(并且不能使用它),你应该看看Sqoop, built by Cloudera
Sqoop专为批量移动数据而设计(而Flume旨在实时移动数据,并且似乎更多地将数据放入hdf而不是将其取出)。
希望有所帮助。