webcrawler分析找到的页面

时间:2011-05-16 18:31:17

标签: web-crawler

我写了一个simle webcrawler。我拿了所有的网站,但他们在我的硬盘上。 现在我想分析它们,所以我可以编写一个像www.google.de这样的简单界面,并在我提取的页面中搜索信息。

问题是如何以“快速”方式找出重要信息。所以计算很重要。它可以是实时的或在获取之后。我的想法是写一个带有英文单词列表的dictonary并计算一下...或者该怎么办?我需要讲授如何提取信息并压缩它们。但我不知道在哪里看。

抓取工具基于带有mysql的c ++,其中存储了链接。

我希望我的问题很清楚。 :d

顺便说一下,我的英语不好,但是德国有这样的董事会:P

1 个答案:

答案 0 :(得分:1)

信息检索科学(IR)是一个复杂的科学。

你看过任何标准文本了吗?像:

Christopher D. Manning,Prabhakar Raghavan和HinrichSchütze的信息检索简介(2008年7月7日) - http://www.amazon.com/Introduction-Information-Retrieval-Christopher-Manning/dp/0521865719/ref=sr_1_1?s=books&ie=UTF8&qid=1305573574&sr=1-1

信息检索:实施和评估搜索引擎StefanBüttcher,Charles L. A. Clarke和Gordon V. Cormack(2010年7月23日) - http://www.amazon.com/Information-Retrieval-Implementing-Evaluating-Engines/dp/0262026511/ref=sr_1_3?s=books&ie=UTF8&qid=1305573574&sr=1-3

在亚马逊上搜索“信息检索”以获取更多信息。

您还可以查看我对Design Question for Notification System的回答,其中概述了用于搜索的抓取网站的一般架构。