应用错误收集

Web爬行及其局限性

时间：2009-05-25 17:49:14

标签： web-crawler

假设您知道直接网址，我们会在网络上放置一个可公开评估的文件。没有指向该文件的链接，并且服务器上也禁用了目录列表。因此，虽然可以公开访问，但除了键入此文件的确切URL之外，无法访问该页面。任何类型的Web爬虫（好的或恶意的）都能够通过爬行然后索引文件来找到此文件的可能性有多大。

对我而言，即使它是公开可访问的，它也需要运气或查找文件的特定知识。就像在后院埋葬黄金并让某人在没有地图的情况下找到它或知道某些东西被埋在那里一样。

我只是看不到它会被发现的任何其他方式，但这就是我要求stackoverflow社区的原因。

感谢。

8 个答案:

答案 0 :(得分：3)

过去，据称使用Google工具栏（可能还有其他此类浏览器插件）“找到”此类隐藏位置，由所有者/上传者使用。

答案 1 :(得分：3)

通过默默无闻的安全永远不会奏效。你说，你不会链接到它，我相信你。但是，没有什么能阻止用户有意或无意地链接到它。正如ceejayoz所说，现在有很多不同的地方可以发布链接。甚至还有“书签同步器”，人们可能认为它们是私人的，但实际上对世界开放。

所以使用真实身份验证。如果你不这样做，你会后悔。

答案 2 :(得分：1)

链接可以在任何地方发生 - 有人可以Twitter链接到它，或在Facebook上发布，或在博客上发表评论。它只需要一个。

如果它在任何地方都没有显示至关重要，请将其放在密码后面。

如果它不重要但您仍然希望它不能通过搜索引擎轻松访问，请使用robots.txt文件阻止表现良好的抓取工具。

答案 3 :(得分：1)

购买/出售的点击流数据可能会导致其他未经链接的内容发现：http://en.wikipedia.org/wiki/Clickstream

答案 4 :(得分：0)

假设：

目录列表：已禁用。没有人
知道页面的存在。
您的文件不包含任何链接（您的浏览器可以将引用者发送到链接的网站）
您已正确设置了robots.txt
您相信所有人都不会将您的链接传播给其他任何人。
你很幸运

好吧，您的页面可能无法找到或发现。

结论？

使用.htaccess文件保护您的数据。

答案 5 :(得分：0)

你是对的。网络爬虫是隐喻的蜘蛛 - 他们需要有一种方法来遍历网络（超链接）并到达你的页面。

要将您的假设页面添加到搜索引擎的结果中，您必须手动将其URL提交给搜索引擎。有多种服务可以将您的页面提交给这些搜索引擎。请参阅“向搜索引擎提交网址”

此外，只有当搜索引擎确定您的网页在搜索引擎的专有排名系统中有足够的元数据/业力时，才会显示您的网页。请参阅“SEO”和“元关键字”。

答案 6 :(得分：-1)

是的，正确的Web爬虫访问URL，它识别页面中的所有超链接，并将它们添加到要访问的URL列表并调用爬网边界，但这些超链接和URL具有错误的链接。用户点击恶意链接并登陆恶意软件网站后，通常会使用虚假的编解码器安装对话框进行宣传。如果没有得到它们，该网站仍然会加载其他数十种策略来感染他们的计算机。从虚假工具栏，恐吓软件，流氓软件等，这些网站拥有一切。他们遇到的一个网站甚至试图安装25个不同的恶意软件。这些网站让人们容易受到垃圾邮件机器人，rootkit，密码Steeler以及各种特洛伊木马等的攻击。</ p>

答案 7 :(得分：-2)

您可以使用谷歌搜索API。与任何其他网页取消关联的网页。我们对此并不了解。