在我的网站上有很多页面和文档,有些页面有链接到另一个页面。
在数据挖掘或网络挖掘中表示整个网站的最佳方式是什么?什么是最好的技术呢?我应该使用Web内容挖掘还是Web使用挖掘?
答案 0 :(得分:1)
我认为首先你可能知道网络挖掘正是在做什么:
网络数据是:
对于网络内容:
从代表Web Document的Web文档中提取“代码段”。
这意味着Web内容挖掘是从您可能需要使用的Web文档内容中提取有用信息的过程(信息检索(IR)和自然语言) 处理(NLP))
但首先你需要一些内容的预处理阶段,如:
Web内容的常用挖掘技术是(分类,聚类和关联)。
对于网络结构:
识别有趣的图形模式或预处理整个网络图形,以提出诸如PageRank等指标。
因此,Web结构挖掘是典型Web图的结构由作为节点的Web页面和作为连接两个相关页面的边缘的超链接组成,并且是从Web发现结构信息的过程,我想这里是你的问题范围。
您可以在此处使用的术语是什么?它的图表(直接图表)其中:
网络图:代表网络的有向图。
节点:每个网页都是网络图的一个节点。
链接:网络上的每个超链接都是网络图的有向边。
学位:节点的入度,p,是指向p的不同链接的数量。
Out-degree:节点的out-degree,是源自其他节点的不同链接的数量。
定向路径:一系列链接,从p开始,可以跟随到达q。
适用于网络使用:
用户识别,会话创建,机器人检测和过滤以及提取使用路径模式