如何获取公司联系页面网址

时间:2009-11-19 10:47:44

标签: python

您好我有csv文件,其中包含公司网址列表,如www.google.com,www.ibm.com .....

在这里,我想为csv文件中的每个网址获取contactus或aboutus页面网址(示例http://www.google.com/contact)我有一个想法检查具有以下模式的链接(联系我们,关于我们,关于,位置)。

如果找不到任何这些,请标记该URL并将其写入日志文件。如果找到模式,只需打印地址(它用于其他一些过程)

2 个答案:

答案 0 :(得分:2)

我建议使用Beautiful Soup来解析页面。另一种选择是在Mechanical Turk上设置一个HIT。

答案 1 :(得分:0)

scrapy是最好的。关于scrapy的最好的事情是它是一个开源的。 scrapy documentation