我在专注的网页抓取(又称主题网络抓取)中看到,评估指标 - 收获率 - 定义为:在抓取“ t ”页面后,收获率= number_of_relevant_pages / pages_crawled(t)的即可。
因此,例如在抓取100页后,我得到80个真阳性,那么爬虫在该点的收获率为0.9。但是,爬网程序可能忽略了一些与爬网域完全相关的爬网页面,但未计入评估比率。这是什么?我们是否可以改进该评估指标以包含完全相关的错过页面?这个考虑很重要吗?
答案 0 :(得分:1)
针对重点抓取的最基本评估是精确度和召回,可以汇总到F-measure中。
http://en.wikipedia.org/wiki/Precision_and_recall
http://en.wikipedia.org/wiki/F1_score
如果您对某个页面与特定关键字的相关性更感兴趣,则需要使用tf / idf(术语频率 - 逆文档频率)