是否可以使用hdfs2FileSink运算符以ORC格式写入IBM InfoSphere Streams中的HDFS中?

时间:2019-04-29 13:57:13

标签: ibm-streams

是否可以在IBM InfoSphere Streams中使用hdfs2FileSink运算符以ORC格式编写

不适用

1 个答案:

答案 0 :(得分:0)

否,目前无法使用HDFS2FileSink运算符。它仅支持文本或二进制。

streamsx.parquet toolkit支持写入Parquet。

否则,您将必须创建自己的Java运算符来接收数据并使用ORC API写入数据。

创建Java操作符as shown in this video非常简单。 Java Operator Development guide可以指导您完成该过程。具体请参见writing a sink operator

创建新的Java运算符后,在处理方法中添加代码以写入ORC API:

  @Override
public void process(StreamingInput<Tuple> stream, Tuple tuple)
        throws Exception {
    // TODO Insert code here to process the incoming tuple, 
    // typically sending tuple data to an external system or data store.
    // String value = tuple.getString("AttributeName");
}

我将从ORC home page, choose the appropriate link for Hive, Hadoop

开始