Redis - 用于存储频繁项目集的数据结构

时间:2014-01-03 15:17:25

标签: redis associations rules

我有一个应用程序,可以对大型文本语料库执行关联规则挖掘。生成的项目集具有以下结构:

Item1, Item2, Item3, Item4, Frequency

在这种情况下,所有项目都是单词(字符串元素),而频率是整数值。到目前为止,我们已经使用MySql来存储项目集。但是,数据库变得非常庞大,建议我使用NoSql数据库并专注于Redis,因为它对各种数据类型有很好的支持(请注意,我对Redis或任何其他NoSql数据库没有太多经验)。 p>

我的问题是:

  1. 用于存储这些项目集的最合适的数据结构是什么?
  2. 如何查询我的数据库以检索以特定单词开头的项目集?
  3. 编辑:示例数据为(项目以|分隔,最后一项为频率):

    In - this - case - 3
    Other - items - 2
    This - is - an - 5
    Lorem - ipsum - 3
    In - other - terms - 2
    

    查询将是:
    查找所有项目集及其频率,其中第一项是“In”。查询应该返回:

    In - this - case - 3
    In - other - terms - 2
    

1 个答案:

答案 0 :(得分:3)

要实现类似于以下条件的行为,可以进行以下操作:

解决方案1:

示例数据集

In - this - case - 3
Other - items - 2
This - is - an - 5
Lorem - ipsum - 3
In - other - terms - 2

答案1:根据使用情况,列表或集合可用作数据结构。在您的情况下,存在重复键(“In”)因此使用列表。

答案2:这个如何使用列表:

请记住,Redis列表的行为类似于链接列表。

$ redis-cli lpush In.list "In - this - case - 3"
OK

$ redis-cli lpush Other.list "Other - items - 2"
OK

$ redis-cli lpush This.list "This - is - an - 5"
OK

$ redis-cli lpush Lorem.list "Lorem - ipsum - 3"
OK

$ redis-cli lpush In.list "In - other - terms - 2"
OK

$redis-cli lrange In.list 0 -1
1) "In - other - terms - 2"
2) "In - this - case - 3"

解决方案2:

其他解决方案将再次使用列表:

我们将有四个主要列表,其行为类似于数据库中的列和单独的单词列表,这些列表将存储它们在主键列表中的索引。

样本数据可以描述为:

索引列1列2列3列4

 1    In         this    case     3
 2    Other      items   " "      2
 3    This       is      an       5
 4    Lorem      ipsum   " "      3
 5    In         other   terms    2

如果返回最多4个值,则此描述有效。我们也可以有一个动态列。 对于动态列,第一列将是键,第二列将是数字部分,其余列将具有字符串。

索引列1列2列3列4列5

 1    In         3      this    case     " "
 2    Other      2      items   " "      " "
 3    This       5      an      " "      " "
 4    Lorem      3      ipsum   " "      " "
 5    In         2      other   terms    " "
 6    Hello      4      world   !         !

继续使用固定的4列解决方案:

   //first row
   $ redis-cli lpush column1 "In"
   1

   $ redis-cli lpush In.list 1
   1

   $ redis-cli lpush column2  "this"
   1
   $ redis-cli lpush column3  "case"
   1
   $ redis-cli lpush column4  3
   1

   //second row
   $ redis-cli lpush column1  "Other"
   2

   $ redis-cli lpush Other.list 2
   1

   $ redis-cli lpush column2  "items"
   2
   $ redis-cli lpush column3  " "
   2
   $ redis-cli lpush column4  2
   2

   //on same lines add 3rd, 4th row and then 5th row
   $ redis-cli lpush column1  "In"
   5

   $ redis-cli lpush In.list 5
   2

   $ redis-cli lpush column2  "items"
   5
   $ redis-cli lpush column3  " "
   5
   $ redis-cli lpush column4  2
   5

   To fetch data you can do something like :
   $ redis-cli lrange In.list 0 -1
   1) 5
   2) 1

   Using these to values as index query columns as
   $redis-cli lindex column1 5
   "In"

   $redis-cli lindex column2 5
   "other"
   $redis-cli lindex column3 5
   "terms"
   $redis-cli lindex column4 5
   2

但是使用第二种解决方案,我们会在单独的列表中引入插入每个字符串的成本,但您可以使用批量操作来执行它们。 我们还保存了空白,以便有明确定义的行类型实现。

解决方案3:

为每一行创建结构并序列化它们将它们存储在特定的键列表中。

第1行“In,this,case,3”

 lpush In.list StructureRepresent1stRow

如果您想使用结构并且复杂的值要存储,可以选择此解决方案。