应用错误收集

我正在为一家公司做一个刮刮项目。我使用了Python selenium，mechanize，BeautifulSoup4等库，并成功地将数据放入MySQL数据库并生成他们想要的报告。

但我很好奇：为什么网站结构没有标准化。每个站点的用户名\密码字段都有不同的名称\ id。我查看了Facebook和Google登录页面，即使他们对用户名\密码字段有不同的命名。此外，其他元素也被任意命名并放置在任何地方。

我可以看到一个明显的原因是机器人会占用大量带宽，网站基本上是针对人类用户的。第二个原因可能是因为网站想要展示广告。也可能有其他原因。

如果网站不必提供API并且会有一个bot \ scraper登录框架，那会不会更好。例如，每个网站都可以使用刮刀友好版本，该版本根据普遍认可的标准规范进行结构化和命名。还有一个页面，显示刮刀的功能帮助。要访问此版本的网站，bot \ scraper必须自行注册。

这将为程序员打开一种完全不同的互联网。例如，有人可以编写一个可以监控漏洞和利用列表网站的刮刀，并自动关闭用户系统上的安全漏洞。（为此，这些网站必须创建一个版本，其中包含可直接应用的此类数据。如补丁和应用的位置）所有这一切都可以由普通程序员轻松完成。在黑暗的一面，人们可以写一个恶意软件，它可以用新的攻击策略更新自己。

我知道可以在其他网站上使用Facebook或Google登录使用开放身份验证。但这只是一个小问题。

我的问题归结为，为什么社区中没有这样的努力？如果有的话，请将它推荐给我。

我搜索了Stack溢出但找不到类似的东西。而且我不确定这种问题是否适合Stack溢出。如果没有，请转到我正确的Stack交流论坛。如果不符合社区标准，我会编辑问题。但这是一个真正的问题。

编辑：感谢@ b.j.g，我得到了答案。 W3C做了这样的努力，称为Semantic Web。（无论如何，我确信谷歌有一天会劫持整个互联网，并且在我的有生之年能够实现这一目标）

是否有任何努力刮板而不是友好的互联网？

1 个答案: