如何将XML文件序列化为Thrift文件? (放入HDFS)

时间:2014-05-06 14:56:21

标签: hdfs thrift

很多天以来,我查询了很多关于大数据的信息,尤其是关于Thrift和HDFS / Hadoop的信息。

我有很多XML文件要存储在HDFS文件系统中。 (之后,根据这些文件的数据进行统计等...)

所以我想用Thrift序列化我的XML文件。 (验证结构并使其耐用..) 然后,将它们存入HDFS。

有可能吗? (XML => Thrift => HDFS)不使用RPC服务。

要进行测试,我想使用Linux VM(用于HDFS)和PHP语言(用于节俭)。

谢谢。

1 个答案:

答案 0 :(得分:0)

您可以使用没有RPC部分的序列化部分,是的。寻找"序列化器"在Thrift源代码树中,你应该找到一些例子。如果不是PHP,那么肯定是其他语言。

你必须自己做一点工作,因为没有这样的事情" "将XML转换为Thrift结构的方法。步骤 - 大致 - 如下

  • 定义数据结构以将XML数据保存为Thrift IDL构造
  • 使用Thrift编译器生成所需的代码
  • 根据需要添加序列化程序代码
  • 汇总了一些代码
    • 读取每个XML文件
    • 从中构建Thrift结构
    • 序列化数据并将其放入HDFS

根据XML数据的布局和使用的XML结构的数量,这可能需要一些努力。通过其他工具以编程方式生成至少IDL文件可能是一个想法,甚至可能需要其他一些代码。尽管这可能是一种选择,但是Thrift不能为此提供支持 - 这取决于您当前的情况,语言和工具。