我正在尝试创建一个抓取.edu域的webCrawler。我给我的程序的一个参数是numHops。跃点数是否只是url中的/ s数? 例如,让我们说www.harvard.edu在我的种子文件中(numHops = 0)。 然后我通过www.harvard.edu解析更多锚文本,我得到www.harvard.edu/faculty和www.harvard.edu/about。那么numHops = 1?当我解析该网页以获得更多信息时,我会收到www.harvard.edu/facult/robinson(numHops = 3)。这个想法有缺陷吗?也许当我爬行时,我可以得到一个完全随机的网站?我不知道如何基本实现numHops。
答案 0 :(得分:0)
跳数是否只是网址中的/ s数?
不,那不是。只有当主页面上的所有链接都直接钻入网站时才会出现这种情况,每个链接添加一个/
。跳数就是您离开您开始爬网的主页的距离。在您的示例中,您从www.harvard.edu
开始,因此您从该页面抓取的所有网址都将在一跳之后。您从这些页面中抓取的所有URL将与起始页面相距两跳,依此类推。这些网页可能位于同一网站上,一个或多个/
深,或者它们可能完全位于不同的网站上,因此/
的数量并不能真正告诉您任何内容