应用错误收集

时间：2012-06-25 06:59:35

标签： web-crawler

我在专注的网页抓取（又称主题网络抓取）中看到，评估指标 - 收获率 - 定义为：在抓取“ t ”页面后，收获率= number_of_relevant_pages / pages_crawled（t）的即可。

因此，例如在抓取100页后，我得到80个真阳性，那么爬虫在该点的收获率为0.9。但是，爬网程序可能忽略了一些与爬网域完全相关的爬网页面，但未计入评估比率。这是什么？我们是否可以改进该评估指标以包含完全相关的错过页面？这个考虑很重要吗？

答案 0 :(得分：1)

针对重点抓取的最基本评估是精确度和召回，可以汇总到F-measure中。

如果您对某个页面与特定关键字的相关性更感兴趣，则需要使用tf / idf（术语频率 - 逆文档频率）