Web Mining代表我的网站

时间:2015-11-25 12:47:10

标签: algorithm data-mining

在我的网站上有很多页面和文档,有些页面有链接到另一个页面。

在数据挖掘或网络挖掘中表示整个网站的最佳方式是什么?什么是最好的技术呢?我应该使用Web内容挖掘还是Web使用挖掘?

1 个答案:

答案 0 :(得分:1)

我认为首先你可能知道网络挖掘正是在做什么:

网络数据是:

  • 网页内容 - 文字,图片,记录等
  • 网络结构 - 超链接,标签等
  • 网络使用 - http日志,应用服务器日志等

对于网络内容:

从代表Web Document的Web文档中提取“代码段”。

这意味着Web内容挖掘是从您可能需要使用的Web文档内容中提取有用信息的过程(信息检索(IR)和自然语言) 处理(NLP))

但首先你需要一些内容的预处理阶段,如:

  • 从HTML中提取文字。
  • 删除停用词。
  • 计算收集宽字频(DF)。
  • 计算每个文档术语频率(TF)。

Web内容的常用挖掘技术是(分类,聚类和关联)。

对于网络结构:

识别有趣的图形模式或预处理整个网络图形,以提出诸如PageRank等指标。

因此,Web结构挖掘是典型Web图的结构由作为节点的Web页面和作为连接两个相关页面的边缘的超链接组成,并且是从Web发现结构信息的过程,我想这里是你的问题范围。

您可以在此处使用的术语是什么?它的图表(直接图表)其中:

  • 网络图:代表网络的有向图。

  • 节点:每个网页都是网络图的一个节点。

  • 链接:网络上的每个超链接都是网络图的有向边。

  • 学位:节点的入度,p,是指向p的不同链接的数量。

  • Out-degree:节点的out-degree,是源自其他节点的不同链接的数量。

  • 定向路径:一系列链接,从p开始,可以跟随到达q。

enter image description here

适用于网络使用:

用户识别,会话创建,机器人检测和过滤以及提取使用路径模式