是否有任何努力刮板而不是友好的互联网?

时间:2014-06-24 04:21:38

标签: web open-source web-scraping semantic-web

我正在为一家公司做一个刮刮项目。我使用了Python selenium,mechanize,BeautifulSoup4等库,并成功地将数据放入MySQL数据库并生成他们想要的报告。

但我很好奇:为什么网站结构没有标准化。每个站点的用户名\密码字段都有不同的名称\ id。我查看了Facebook和Google登录页面,即使他们对用户名\密码字段有不同的命名。此外,其他元素也被任意命名并放置在任何地方。

我可以看到一个明显的原因是机器人会占用大量带宽,网站基本上是针对人类用户的。第二个原因可能是因为网站想要展示广告。也可能有其他原因。

如果网站不必提供API并且会有一个bot \ scraper登录框架,那会不会更好。例如,每个网站都可以使用刮刀友好版本,该版本根据普遍认可的标准规范进行结构化和命名。还有一个页面,显示刮刀的功能帮助。要访问此版本的网站,bot \ scraper必须自行注册。

这将为程序员打开一种完全不同的互联网。例如,有人可以编写一个可以监控漏洞和利用列表网站的刮刀,并自动关闭用户系统上的安全漏洞。 (为此,这些网站必须创建一个版本,其中包含可直接应用的此类数据。如补丁和应用的位置) 所有这一切都可以由普通程序员轻松完成。在黑暗的一面,人们可以写一个恶意软件,它可以用新的攻击策略更新自己。

我知道可以在其他网站上使用Facebook或Google登录使用开放身份验证。但这只是一个小问题。

我的问题归结为,为什么社区中没有这样的努力?如果有的话,请将它推荐给我。

我搜索了Stack溢出但找不到类似的东西。而且我不确定这种问题是否适合Stack溢出。如果没有,请转到我正确的Stack交流论坛。 如果不符合社区标准,我会编辑问题。但这是一个真正的问题。

编辑:感谢@ b.j.g,我得到了答案。 W3C做了这样的努力,称为Semantic Web。(无论如何,我确信谷歌有一天会劫持整个互联网,并且在我的有生之年能够实现这一目标)

1 个答案:

答案 0 :(得分:1)

编辑:我认为你要找的是The Semantic Web

您假设人们希望抓取他们的数据。实际上,人们搜索的数据通常是发布者专有的,当它被删除时......他们将失去对数据的排他性。

过去我在编写瑜伽时间表方面遇到了麻烦,我得出的结论是,开发人员很难将其刮掉,因此第三方无法轻易使用他们的数据。