Question

我目前正在开发一个推荐应用程序，我正在使用带有hadoop和pig的cassandra进行map / reduce作业。为了利用列名属性，我们的团队决定使用无值列和聚合列名来存储数据，例如，特定内容的所有匹配都存储在具有单行的列族中，并且每列都是内容使用以下结构：

rowkey = 'single_row' {
    id_content:hit_date, -
    .
    .
    .
}

使用此模式，我们获得宽行而不是skinny;问题是，我如何操作Pig中的数据以便使用此模式在cassandra中存储数据？

Answer 1

我不确定你的评论是否使用复合列，或者你是否只是连接id_content和hit_date。

对于普通（即非复合）列，架构为：

(key, {(col_name, col_value), ...})

对于复合列，我相信模式如下：

(key, {((col_name_part_1, col_name_part_2), col_value), ...})

上提交的修补程序