如何在cassandra中存储流数据

时间:2014-11-14 12:14:57

标签: hadoop cassandra analytics

我是Cassandra的新手,我很困惑。我知道cassandra的写入速度非常快。我想存储来自storm的twitter数据。我用谷歌搜索,每当我得到sstable并加载到集群中。如果每次我必须制作sstable,那么如何在cassandra中存储Twitter数据流。

请帮帮我。

如何存储日志数据,每秒生成1000log。

如果我错了,请纠正我

1 个答案:

答案 0 :(得分:-1)

我认为如果您的架构良好,Cassandra单节点每秒可处理1000个日志而无需批量加载。还取决于每个日志的大小。

或者您可以使用Cassandra的Copy From CSV命令。

为此,您需要先创建一个表。

这是来自datastax网站的一个例子:

CREATE TABLE airplanes (
  name text PRIMARY KEY,
  manufacturer text,
  year int,
  mach float
);

COPY airplanes (name, manufacturer, year, mach) FROM 'temp.csv';

您需要根据列的存储顺序指定列的名称。对于带逗号(,)的值,您可以将它们用双引号括起来(")或使用不同的分隔符。

有关详细信息,请参阅http://www.datastax.com/documentation/cql/3.0/cql/cql_reference/copy_r.html