我有一个严肃的问题。忽略网站上robots.txt文件的存在是否合乎道德?这些是我想到的一些考虑因素:
如果有人放了一个网站,他们就会期待一些访问。当然,网络抓取工具使用带宽而不点击可能支持该网站的广告,但网站所有者正在将他们的网站放在网络上,这对他们来说,他们永远不会被机器人访问是多么合理?
有些网站显然使用了robots.txt,以防止他们的网站被谷歌或其他可能抢占价格的实用程序抓取,从而让人们可以轻松地进行价格比较。他们在网站上有私人搜索引擎,所以他们显然希望人们能够搜索网站;显然他们只是不希望人们能够轻松地将他们的信息与其他供应商进行比较。
正如我所说,我不是要争论;我想知道是否有人提出过一个案例,在道德上允许忽略robots.txt文件的存在?我不能想到一个允许忽略robots.txt的情况,主要是因为人们(或企业)正在付钱建立他们的网站,所以他们应该能够告诉谷歌/ Yahoos /其他SE的世界他们不想成为他们的指数。
为了将这个讨论置于上下文中,我想创建一个价格比较网站,其中一个主要供应商有一个robots.txt,基本上可以防止任何人抓住他们的价格。我希望能够获得他们的信息,但正如我所说,我不能完全忽视网站所有者的意愿。
我在这里看到了一些非常尖锐的讨论,这就是为什么我想听听Stack Overflow之后的开发人员的意见。
顺便说一下,在Hacker News question上有一些关于这个主题的讨论,但它们似乎主要集中在这方面的法律方面。
答案 0 :(得分:43)
参数:
答案 1 :(得分:27)
robots.txt
的另一个用途是帮助保护网络蜘蛛免受攻击。网络蜘蛛相对容易陷入无限深的链接林中,正确构建的robots.txt
文件会告诉蜘蛛“你不需要去这里”。
答案 2 :(得分:4)
许多人试图通过建立“价格比较”引擎来打造主要网站。
一旦您开始获得任何类型的流量/收入,您将收到cease and desist。它发生在数十个,甚至数百个项目上。我甚至参与了一个从Craigslist收到C& D的小项目。
你知道他们怎么说“请求宽恕比获得许可更容易”?页面抓取并不适用。获得许可,或者您将收到律师的回复。
如果你很幸运,它会在早期,当你没有什么可失去的时候。如果时间已晚,您可能只需一封信就可能在一夜之间失去您的业务和所有工作。
获得许可不应该很难。除非你做鬼鬼祟祟的事情,否则你可能会带来额外的流量。地狱,一旦你的产品起飞,网站可能会乞求你,甚至付钱给你添加他们的数据。
答案 3 :(得分:2)
“否”表示“不”。
答案 4 :(得分:1)
要回答这个狭隘的问题,对于价格比较网站,您可能最好实时获取价格,而不是提前报废数据库。很难想象这是一个问题。
答案 5 :(得分:1)
我们允许机器人在没有投诉的情况下通过网络挖掘的一个原因是,如果我们愿意,我们有办法阻止他们。保护双方。
当Cuil的机器人被指控过度时,请记住骚动,在某些情况下显然像DoS攻击并且使用一些小型网站的带宽限额?
如果有太多人违反了robots.txt,我们可能会变得更糟。
答案 6 :(得分:0)
一个有趣的IRL版故事涉及哈佛合作社: Coop Calls Cops On ISBN Copiers
答案 7 :(得分:0)
简短回答:不。
在狭隘的问题上:如果卖家说他们的价格是秘密的,我认为你必须尊重这一点。我会联系他们并询问他们是否真的不希望像你这样的价格比较引擎包含它们,或者如果出于技术原因“没有非法侵入”标志。如果是后者,也许他们会为你提供另一种选择。如果是前者,那么我说太糟糕了,他们没有被包括在内,他们失去了一些生意,这就是他们的问题。
切向咆哮:就我个人而言,我对那些让我跳过篮球以找出他们产品价格的公司感到非常恼火,这些地方让我打电话和销售员交谈,这样他就可以给我一个卖得很好的摊位,或者更糟糕的是,让我给他们我的电话号码,以便他们的推销员可以打电话和骚扰我。我想如果他们不敢告诉我价格,那可能意味着它太高了。一般情况下:robots.txt文件就像是“禁止侵入”标志。所有者有权说出他们的财产是谁被允许的。如果你认为他们的理由是愚蠢的,你可以礼貌地建议他们采取这种做法。但是你没有权利无视他们的意愿。如果有人在他的院子里放了一个非侵入式标志,我说,“嘿,我只想快速做一下,有什么大不了的?” - 也许我正踩着他珍贵的保加利亚紫罗兰色灯泡并摧毁了宝贵的投资。也许我正在穿越他人民的神圣墓地并冒犯他们的宗教情感。或者也许他只是个笨蛋。但它仍然是他的财产和权利。哦,如果我忽略了非侵入性标志后陷入危险的下沉洞,谁应该受到责备呢? (在美国,尽管他警告过我,我仍然可以起诉他所有的价值,但这是对的吗?)
答案 8 :(得分:-2)
我在这里表现出一些无知,但我一直认为机器人只是由搜索引擎发出的东西。像谷歌或雅虎。
因此,如果您编写了一个在互联网上搜索内容的应用程序,我不会认为这是一个搜索引擎机器人,据我所知,这是robots.txt试图阻止的内容。
但这可能只是选择性的无知,因为我可能会这样做,直到该网站的网站管理员联系我并要求我停止:)
答案 9 :(得分:-4)
如果人们可以公开访问,他们就不应该试图限制它。将robots.txt文件添加到您的网站相当于在您的草坪上贴上一个标语“请不要看我。”