应用错误收集

我正在尝试使用cassandra作为后端存储来构建数据服务层。我是Cassandra的新手，不知道用什么客户端用于cassandra - thrift或cql 3？我们有很多使用亚马逊弹性mapreduce（EMR）的mapreduce工作，它将以高容量读取/写入来自cassandra的数据。总数据量将>卡桑德拉有数十亿排的100 TB。可以使用高qps（> 1000 qps）读取或写入mapreduce作业。要求如下：

简单的客户端代码。似乎thrift使用sstableloader（http://www.datastax.com/dev/blog/bulk-loading）与Hadoop内置集成以进行批量数据加载。
能够在运行时定义新列。我们可能需要根据应用程序要求添加更多列。似乎cql3不允许在运行时动态定义列。
批量读/写的性能。不确定哪个客户端更好。但是，我发现这篇帖子声称thrift客户端在高数据量方面具有更好的性能：http://jira.pentaho.com/browse/PDI-7610?page=com.atlassian.jira.plugin.system.issuetabpanels:all-tabpanel

我找不到任何回答此问题的权威信息来源。感谢您是否可以提供帮助，因为我确信这对大多数人来说是一个常见问题，并且会使整个社区受益。

非常感谢提前。

-Prateek

Hadoop和Cassandra都是用Java编写的，所以一定要选择一个基于java的驱动程序。至于代码的简单性，我会去Astyanax，他们的维基页面非常好，文档全面可靠。是的atyanax确实允许您在运行时定义列，但请注意基于thrift的API正在被cql apis取代。

如果您想要继续使用纯cql3路由，我建议您使用datastax's驱动程序。它允许异步连接并不断更新（view the logs）。虽然文档还不完整，但代码也很干净，但是你可以看一下源代码中的测试。

但说实话，有很多关于API的问题，你应该通过它们阅读并为自己形成一个意见：

什么cassandra客户端用于hadoop集成？

1 个答案: