我正在尝试实现一种特定类型的过程挖掘,该过程已在this thesis [link]中进行了介绍。它基于HMM并以有向图的形式生成过程模型,其中:
由用户ID,时间戳和活动组成的用户事件日志用作输入。下图是这种过程模型的示例。突出显示的节点和边缘类似于使用维特比算法预测的路径。
您可以看到,图形的节点和边仅带有数字标签,可以区分不同的策略和意图。为了使这些标签对人类读者更有意义,我想推断一些合适的标签。
我的想法是使用本体来获取那些标签。经过一些研究,我发现我可能需要做一些通常被称为“本体学习”的事情。为此,我需要以RDF / OWL格式创建一些公理,然后将其用作推理器的输入,以推断出本体。
这种方法对实现我的目标是否正确和合理?
如果这是要走的路,我将需要一些工具来自动生成公理。到目前为止,我找不到开箱即用的工具。根据到目前为止所见,我得出结论,我需要在原始数据和所需公理之间定义某种映射。我仔细研究了protégé,它提供了电子表格插件。它似乎基于MappingMasterDSL project [link]。
我还发现了an interesting paper [link]关于本体学习的知识,其中以端到端的方式训练了基于RNN的模型,以将定义语句转换为OWL公式。但是:我的用户事件日志数据不包含任何自然语句。它的活动由从用户界面的HTML元素派生的标记定义。因此,基于RNN的方法似乎不适用于此处。 (对于感兴趣的读者,可以在here [link]上找到相关项目)
真的没有比手工设计公理的架构(ta)容易的方法了吗?
假设我已经创建了公理并推断出一个本体,我想使用这些策略(边缘)的可观察活动(排放)来推断一个合适的标签。我想我需要以某种方式查询我的本体。我可以将活动名称用作查询的参数,并寻找一些可以揭示所需标签的相关实体。我期望的是这样的:
“我有一个
ID=3
的策略,该策略可以通过 动作a
,b
和c
给了我本体的所有实体, 将这些动作作为财产价值并显示并给我所有相关的信息 这些实体的标签”
但是标签的数据实际上是哪里来的?
我认为我在本体学习过程中缺少一些重要的步骤。在哪里可以找到标签的其他数据源,如何将这些数据与本体的实体相关联?
我也想知道是否有一种方法可以将过程模型的拓扑结构的固有知识整合到我的本体中。