我尝试使用Mahout对用户进行聚类和分类。目前我正处于计划阶段,我的想法与想法完全混合,因为我对这个领域相对较新,我一直坚持数据格式化。
我们说我们有两个数据表(足够大)。在第一个表中有用户及其操作。每个用户至少有一个动作,他们也可以有太多的动作。表中有大约10000个不同的user_actions和数百万条记录。
user - user_action
u1 - a
u2 - b
u3 - a
u1 - c
u2 - c
u2 - c
u1 - b
u4 - f
u4 - e
u1 - e
u1 - d
u5 - d
在另一个表格中,有“行动”类别。每个动作可能没有或多个类别。共有60个类别。
user_action - category
a - cat1
b - cat2
c - cat1
d - NULL
e - cat1, cat3
f - cat4
我将尝试使用 Mahout 构建用户分类模型,但我不知道应该做什么。 我应该创建哪种类型的用户向量?或者我真的需要用户向量吗?
我想我需要创建类似的东西;
u1 (a, c, b, e, d)
u2 (b, c, c)
u3 (a)
u4 (f, e)
u5 ()
问题在这里,一些用户执行了超过100000次操作(其中一些操作是相同的操作)
因此;我认为这更有用;
u1 (cat1, cat1, cat2, cat1, cat3)
u2 (cat2, cat1, cat1)
u3 (cat1)
u4 (cat4, cat1, cat3)
u5 ()
我也担心的事情是
欢迎任何指导。
答案 0 :(得分:1)
我会像你一样为每个用户创建一行,每个类别都有一列;如果我正确理解你的例子,这将导致60列。列的值范围从0到用户看到类别的最大次数。结果将是每个用户60个数字,其中大多数为0.
可能需要对行执行某种规范化。通过类比于在文本挖掘中产生文档向量所做的事情,可以将诸如术语频率归一化之类的东西应用于该行。每列也可能需要标准化。
从这里开始,可以使用您选择的算法和聚类有效性度量来执行聚类,以帮助指导您选择最有趣的聚类。
这样做的本质是你必须迭代地重复这个过程,或者以新的方式表示输入数据。