我见过很多用于顺序模式挖掘的数据库,他们在这些数据库中采用的序列就像
≤(AF)(d)(e)中的(a)>
≤(E)(ABF)(BDE)GT;
一个括号中的项目集如(af),(abf),(bde)代表什么? 这是否意味着他们彼此相关或其他什么
我们在什么基础上将项目分类为这一元素? 我使用weblog文件作为数据集。
答案 0 :(得分:4)
顺序模式挖掘算法的输入是序列数据库。序列是项目集的有序列表。
以下是序列的示例:
≤(E)(ABF)(BDE)GT;
此序列应解释如下:
首先发生项目“e”。然后同时跟着“a”,“b”和“f”。这些项目后面跟着“b”,“d”和“e”。
所以答案是括号之间的项目被假定为无序或同时发生。括号内的项称为“项集”。
请注意,还假设项目集中不能出现多次项目。因此,拥有像(a a b)
这样的项目集是违法的此外,您还应该知道大多数顺序模式挖掘算法都假设项集中的项是词法排序的(例如PrefixSpan)。如果项目在项目集中没有词法排序,则算法可能无法提供良好的结果,因为它们使用了一些采用此假设的优化。
如果您想尝试一些顺序模式挖掘算法,您可以查看SPMF软件:http://www.philippe-fournier-viger.com/spmf/,它提供了图形用户界面和许多示例(我是项目创始人)。
希望这能很好地回答你的问题。