是否可以在IBM InfoSphere Streams中使用hdfs2FileSink运算符以ORC格式编写
不适用
答案 0 :(得分:0)
否,目前无法使用HDFS2FileSink运算符。它仅支持文本或二进制。
streamsx.parquet toolkit支持写入Parquet。
否则,您将必须创建自己的Java运算符来接收数据并使用ORC API写入数据。
创建Java操作符as shown in this video非常简单。 Java Operator Development guide可以指导您完成该过程。具体请参见writing a sink operator。
创建新的Java运算符后,在处理方法中添加代码以写入ORC API:
@Override
public void process(StreamingInput<Tuple> stream, Tuple tuple)
throws Exception {
// TODO Insert code here to process the incoming tuple,
// typically sending tuple data to an external system or data store.
// String value = tuple.getString("AttributeName");
}
我将从ORC home page, choose the appropriate link for Hive, Hadoop
开始