算法:确定主页的类型?

时间:2010-10-15 11:45:38

标签: algorithm web-crawler heuristics

我一直在思考这个问题,所以我想我会提出建议:

我有一些爬虫进入某个网站的根目录(可能来自www.StackOverFlow.com,www.SomeDudesPersonalSite.se甚至www.Facebook.com)。然后我需要确定我正在访问的“主页”类型。例如,不同的类型可能是:

  • 论坛
  • 博客
  • 链接目录
  • 社交媒体网站
  • 新闻网站
  • “一个人网站”

我已经集思广益了一段时间,最好的解决方案似乎是一些带点系统的启发式算法。通过这个我的意思是不同的趋势给出了不同类型的一些点,然后程序在之后进行猜测。

但这就是我被卡住的地方..你如何发现趋势?

  • 目录可能很简单:如果sitesIndexed / Outgoing链接非常高,目录应该有几个点。
  • 新闻网站/博客可能很简单:如果索引的大量网站有日期时间,那么这些类型应该得到几个点..

但我真的找不到太多的趋势。

SO:我的问题是: 关于如何做到这一点的任何想法?

非常感谢..

2 个答案:

答案 0 :(得分:3)

我相信你正在尝试文档分类,这是一个研究得很好的主题。

http://en.wikipedia.org/wiki/Document_classification

您将看到许多不同方法的大量列表。但是,在确定你所谓的“趋势”之前,建议其中任何一个(或神经网络等)是过早地建议它。我建议查看“网络文档分类”等。它显然是文档分类的一个相当大的子集,如果您可以访问学术期刊,那么有很多难以理解的文章供您欣赏。

我也发现你的想法是一项家庭作业 - 也许如果你特别大胆,你可以联系教授。 http://uhaweb.hartford.edu/compsci/ccli/wdc.htm

最后,我认为这是一个可访问的(如果格式奇怪的)网站,它有一个普遍的,也许是过时的讨论: http://www.webology.ir/2008/v5n1/a52.html

我担心我对这个主题没有太多的个人知识,所以我能做的最多就是告诉你关键词“文档分类”并提供一些快速的谷歌搜索。但是,如果我想玩这个概念,我认为只是寻找某些关键词的比率是一个不错的开始“趋势”。 (“销售”或“购买”或“客户”是购物网站的趋势,“我的”,“意见”,“评论”,博客等等)

答案 1 :(得分:0)

您可以训练neural network来识别它们。给它链接的数量/类型,也可以是HTML标签的类型。

我认为否则你只是在猜测是什么让网站成为现实。