我目前正在开发一个推荐应用程序,我正在使用带有hadoop和pig的cassandra进行map / reduce作业。 为了利用列名属性,我们的团队决定使用无值列和聚合列名来存储数据,例如,特定内容的所有匹配都存储在具有单行的列族中,并且每列都是内容使用以下结构:
rowkey = 'single_row' {
id_content:hit_date, -
.
.
.
}
使用此模式,我们获得宽行而不是skinny;问题是,我如何操作Pig中的数据以便使用此模式在cassandra中存储数据?
答案 0 :(得分:0)
我不确定你的评论是否使用复合列,或者你是否只是连接id_content和hit_date。
对于普通(即非复合)列,架构为:
(key, {(col_name, col_value), ...})
对于复合列,我相信模式如下:
(key, {((col_name_part_1, col_name_part_2), col_value), ...})
此评估(针对复合列)基于阅读https://issues.apache.org/jira/browse/CASSANDRA-3684
上提交的修补程序