我有一个应用程序,可以对大型文本语料库执行关联规则挖掘。生成的项目集具有以下结构:
Item1, Item2, Item3, Item4, Frequency
在这种情况下,所有项目都是单词(字符串元素),而频率是整数值。到目前为止,我们已经使用MySql来存储项目集。但是,数据库变得非常庞大,建议我使用NoSql数据库并专注于Redis,因为它对各种数据类型有很好的支持(请注意,我对Redis或任何其他NoSql数据库没有太多经验)。 p>
我的问题是:
编辑:示例数据为(项目以|分隔,最后一项为频率):
In - this - case - 3
Other - items - 2
This - is - an - 5
Lorem - ipsum - 3
In - other - terms - 2
查询将是:
查找所有项目集及其频率,其中第一项是“In”。查询应该返回:
In - this - case - 3
In - other - terms - 2
答案 0 :(得分:3)
要实现类似于以下条件的行为,可以进行以下操作:
示例数据集
In - this - case - 3
Other - items - 2
This - is - an - 5
Lorem - ipsum - 3
In - other - terms - 2
答案1:根据使用情况,列表或集合可用作数据结构。在您的情况下,存在重复键(“In”)因此使用列表。
答案2:这个如何使用列表:
请记住,Redis列表的行为类似于链接列表。
$ redis-cli lpush In.list "In - this - case - 3"
OK
$ redis-cli lpush Other.list "Other - items - 2"
OK
$ redis-cli lpush This.list "This - is - an - 5"
OK
$ redis-cli lpush Lorem.list "Lorem - ipsum - 3"
OK
$ redis-cli lpush In.list "In - other - terms - 2"
OK
$redis-cli lrange In.list 0 -1
1) "In - other - terms - 2"
2) "In - this - case - 3"
其他解决方案将再次使用列表:
我们将有四个主要列表,其行为类似于数据库中的列和单独的单词列表,这些列表将存储它们在主键列表中的索引。
样本数据可以描述为:
1 In this case 3
2 Other items " " 2
3 This is an 5
4 Lorem ipsum " " 3
5 In other terms 2
如果返回最多4个值,则此描述有效。我们也可以有一个动态列。 对于动态列,第一列将是键,第二列将是数字部分,其余列将具有字符串。
1 In 3 this case " "
2 Other 2 items " " " "
3 This 5 an " " " "
4 Lorem 3 ipsum " " " "
5 In 2 other terms " "
6 Hello 4 world ! !
继续使用固定的4列解决方案:
//first row
$ redis-cli lpush column1 "In"
1
$ redis-cli lpush In.list 1
1
$ redis-cli lpush column2 "this"
1
$ redis-cli lpush column3 "case"
1
$ redis-cli lpush column4 3
1
//second row
$ redis-cli lpush column1 "Other"
2
$ redis-cli lpush Other.list 2
1
$ redis-cli lpush column2 "items"
2
$ redis-cli lpush column3 " "
2
$ redis-cli lpush column4 2
2
//on same lines add 3rd, 4th row and then 5th row
$ redis-cli lpush column1 "In"
5
$ redis-cli lpush In.list 5
2
$ redis-cli lpush column2 "items"
5
$ redis-cli lpush column3 " "
5
$ redis-cli lpush column4 2
5
To fetch data you can do something like :
$ redis-cli lrange In.list 0 -1
1) 5
2) 1
Using these to values as index query columns as
$redis-cli lindex column1 5
"In"
$redis-cli lindex column2 5
"other"
$redis-cli lindex column3 5
"terms"
$redis-cli lindex column4 5
2
但是使用第二种解决方案,我们会在单独的列表中引入插入每个字符串的成本,但您可以使用批量操作来执行它们。 我们还保存了空白,以便有明确定义的行类型实现。
为每一行创建结构并序列化它们将它们存储在特定的键列表中。
第1行“In,this,case,3”
lpush In.list StructureRepresent1stRow
如果您想使用结构并且复杂的值要存储,可以选择此解决方案。