应用错误收集

WebCrawler java numHops

时间：2015-02-08 19:00:40

标签： java web-crawler

我正在尝试创建一个抓取.edu域的webCrawler。我给我的程序的一个参数是numHops。跃点数是否只是url中的/ s数？例如，让我们说www.harvard.edu在我的种子文件中（numHops = 0）。然后我通过www.harvard.edu解析更多锚文本，我得到www.harvard.edu/faculty和www.harvard.edu/about。那么numHops = 1？当我解析该网页以获得更多信息时，我会收到www.harvard.edu/facult/robinson(numHops = 3）。这个想法有缺陷吗？也许当我爬行时，我可以得到一个完全随机的网站？我不知道如何基本实现numHops。

1 个答案:

答案 0 :(得分：0)

跳数是否只是网址中的/ s数？

不，那不是。只有当主页面上的所有链接都直接钻入网站时才会出现这种情况，每个链接添加一个/。跳数就是您离开您开始爬网的主页的距离。在您的示例中，您从www.harvard.edu开始，因此您从该页面抓取的所有网址都将在一跳之后。您从这些页面中抓取的所有URL将与起始页面相距两跳，依此类推。这些网页可能位于同一网站上，一个或多个/深，或者它们可能完全位于不同的网站上，因此/的数量并不能真正告诉您任何内容