从谷歌提取公司联系方式

时间:2012-03-26 03:02:03

标签: python ruby regex email

我的老板给了我一份大约3500家公司的名单,并希望明天能够为每个公司提供通用联系电子邮件。我知道这听起来很迟钝,但是我们的客户要求它。我想采取的方法是:

  • 执行Google搜索公司名称
  • 识别公司网站并重定向到
  • 点击网站链接查找联系我们/关于我们页面
  • 找到并返回页面上的第一个电子邮件地址

我已经在这里和那里做了一些python,但没有基于网络或正则表达式...虽然我得到了基本的想法,我不知道我是否能够在接下来的12个小时内执行它。

如果有人对如何使用python或ruby编写脚本有任何帮助,我会非常感激......

2 个答案:

答案 0 :(得分:4)

我会寻求更加非技术性的解决方案。您可以将3500个名称拆分并将其作为HIT发布到Amazon Mechanical Turk,每个名称支付1美分。然后编写代码来刮取谷歌,你编写代码来创建命中,让真正的人做"刮擦"公司网站。

不知道这是否适合你,但这可能是我所做的。

希望有所帮助!

布兰登

答案 1 :(得分:0)

在Ruby中,您可能希望查看使用Google's Custom Search API以及Mechanize gem。 Ruby的URI库或Addressable::URI gem将非常有用。此外,Ruby的Open::URI或类似CurbTyphoeus的内容也会有所帮助。

你不想刮掉谷歌的网页。他们有一个API,可以在没有抓取的情况下返回可用的响应,如果你试图搜索3500次搜索,如果他们在你完成之前禁止你,我不会感到惊讶。

要执行所需操作的实际代码示例位于库和gem的文档中。