网页抓取评估?

时间:2012-06-25 06:59:35

标签: web-crawler

我在专注的网页抓取(又称主题网络抓取)中看到,评估指标 - 收获率 - 定义为:在抓取“ t ”页面后,收获率= number_of_relevant_pages / pages_crawled(t)的即可。

因此,例如在抓取100页后,我得到80个真阳性,那么爬虫在该点的收获率为0.9。但是,爬网程序可能忽略了一些与爬网域完全相关的爬网页面,但未计入评估比率。这是什么?我们是否可以改进该评估指标以包含完全相关的错过页面?这个考虑很重要吗?

1 个答案:

答案 0 :(得分:1)

针对重点抓取的最基本评估是精确度和召回,可以汇总到F-measure中。

http://en.wikipedia.org/wiki/Precision_and_recall

http://en.wikipedia.org/wiki/F1_score

如果您对某个页面与特定关键字的相关性更感兴趣,则需要使用tf / idf(术语频率 - 逆文档频率)

http://en.wikipedia.org/wiki/Tf * IDF