我的老板给了我一份大约3500家公司的名单,并希望明天能够为每个公司提供通用联系电子邮件。我知道这听起来很迟钝,但是我们的客户要求它。我想采取的方法是:
我已经在这里和那里做了一些python,但没有基于网络或正则表达式...虽然我得到了基本的想法,我不知道我是否能够在接下来的12个小时内执行它。
如果有人对如何使用python或ruby编写脚本有任何帮助,我会非常感激......
答案 0 :(得分:4)
我会寻求更加非技术性的解决方案。您可以将3500个名称拆分并将其作为HIT发布到Amazon Mechanical Turk,每个名称支付1美分。然后编写代码来刮取谷歌,你编写代码来创建命中,让真正的人做"刮擦"公司网站。
不知道这是否适合你,但这可能是我所做的。
希望有所帮助!
布兰登
答案 1 :(得分:0)
在Ruby中,您可能希望查看使用Google's Custom Search API以及Mechanize gem。 Ruby的URI库或Addressable::URI gem将非常有用。此外,Ruby的Open::URI或类似Curb或Typhoeus的内容也会有所帮助。
你不想刮掉谷歌的网页。他们有一个API,可以在没有抓取的情况下返回可用的响应,如果你试图搜索3500次搜索,如果他们在你完成之前禁止你,我不会感到惊讶。
要执行所需操作的实际代码示例位于库和gem的文档中。