如何将数据从Cassandra加载到Apache Flink DataStream

时间:2018-04-04 06:49:20

标签: cassandra apache-flink flink-streaming

尝试使用Apache Flink从Cassandra获取数据,引用this post我可以读取数据,但我不知道如何将其加载到DataStream对象中。以下是代码:

ClusterBuilder cb = new ClusterBuilder() {
            @Override
            public Cluster buildCluster(Cluster.Builder builder) {
                return builder.addContactPoint("localhost")
                        /*.withCredentials("hduser".trim(), "hadoop".trim())*/
                        .build();
            }
        };
CassandraInputFormat<Tuple2<UUID, String>> cassandraInputFormat = new CassandraInputFormat<Tuple2<UUID, String>>(query, cb);

cassandraInputFormat.configure(null);
cassandraInputFormat.open(null);

Tuple2<UUID, String> testOutputTuple = new Tuple2<>();
ByteArrayOutputStream res = new ByteArrayOutputStream();
res.reset();

while (!cassandraInputFormat.reachedEnd()) {
    cassandraInputFormat.nextRecord(testOutputTuple);
    res.write((testOutputTuple.f0.toString() + "," + testOutputTuple.f1).getBytes());
}
DataStream<byte[]> temp = new DataStream<byte[]>(env, new StreamTransformation<byte[]>(res.toByteArray()));

我试过

DataStream<byte[]> temp = new DataStream<byte[]>(env, new StreamTransformation<byte[]>(res.toByteArray()));

res变量中的数据加载到DataStream<byte[]>对象中,但这不是正确的方法。我怎样才能做到这一点?我的阅读cassandra的方法是否适合流处理?

2 个答案:

答案 0 :(得分:1)

从数据库读取数据-是一项有限的任务。 使用CassandraInputFormat时,应该使用DataSet API,而不是DataStream。 例如:

DataSet<Tuple2<Long, Date>> ds = env.createInput(executeQuery(YOUR_QUERY), TupleTypeInfo.of(new TypeHint<Tuple2<Long, Date>>() {}));

private static CassandraInputFormat<Tuple2<Long, Date>> executeQuery(String YOUR_QUERY) throws IOException {
    return new CassandraInputFormat<>(YOUR_QUERY, new ClusterBuilder() {
        private static final long serialVersionUID = 1;
            @Override
            protected Cluster buildCluster(com.datastax.driver.core.Cluster.Builder builder) {
                return builder.addContactPoints(CASSANDRA_HOST).build();
            }
        });
    }
}

答案 1 :(得分:0)

在Flink中创建DataStream始终以ExecutionEnvironment开头。

而不是:

DataStream<byte[]> temp = new DataStream<byte[]>(env, new StreamTransformation<byte[]>(res.toByteArray())); 

尝试:

DataStream<Tuple2<UUID, String>> raw = ExecutionEnvironment.createInput(cassandraInputFormat);

然后,您可以使用map函数将数据类型更改为DataStream

我没有使用过Cassandra连接器,所以我不知道你是否正确使用了那部分。